Intel и Институт Вейцмана ускорили AI с помощью спекулятивного декодирования…

20.09.2025

Intel и Институт Вейцмана ускорили AI с помощью спекулятивного декодирования 🖥

На Международной конференции по машинному обучению (ICML 2025) исследователи Intel Labs и Вейцмановского института п<a href=«https://newsroom.intel.com/artificial-intelligence/intel-weizmann-institute-speed-ai-with-speculative-decoding-advance»>оказали универсальное усовершенствование спекулятивного декодирования (speculative decoding) — метода ускорения вывода LLM.

Классическая схема предполагает работу пары: быстрая «черновая» модель создает предварительный ответ, а большая — проверяет и дорабатывает его. Традиционная модель LLM генерирует каждое слово шаг за шагом. К примеру, она вычисляет слово «Париж», затем «знаменитый», затем «город» и так далее, задействовав значительные ресурсы на каждом этапе. Главное ограничение такого подхода — необходимость согласованного словаря и общего обучения моделей.

Новая методика снимает эти ограничения: теперь любая быстрая модель может ускорять любую LLM (независимо от их происхождения и архитектуры). Благодаря спекулятивному декодированию небольшая модель-помощник быстро составляет полную фразу «Париж — знаменитый город…». Затем большая модель проверяет последовательность. Это значительно сокращает количество вычислительных циклов на выходной токен.

Разработчики п<a href="https://arxiv.org/pdf/2502.05202″>редставили три алгоритма, устраняющих зависимость от общего словаря и позволяющих формировать универсальные пары моделей. В результате работа модели ускоряется до 2,8 раза без потери качества.

Алгоритмы уже добавлены в библиотеку Hugging Face Transformers и доступны без дополнительной настройки.

Метод особенно актуален в условиях фрагментированного AI-ландшафта: это повышает совместимость между моделями и платформами и удешевляет стоимость вывода. По словам исследователей, технология превращает speculative decoding из специализированного приема в производственный стандарт с открытым исходным кодом, доступный для любого приложения.

file 555

Оцените материал:

Читайте также

Intel и Институт Вейцмана ускорили AI с помощью спекулятивного декодирования…

🤖 Нельсон AI

Гайды, руководства и полезные статьи

Похожие записи

Похожие записи

🕵️‍♂️ Социальный детектив: находим все аккаунты человека по нику Энтузиасты…

NVIDIA тихо, не спеша, представили метод, который помогает генерировать изображения…

a16z выпустили новый рейтинг топ-100 ИИ-приложений Фонд Andreessen Horowitz (a16z)…

Присоединяйтесь и подпишитесь на рассылку самых свежих новостей по Email

🤖 Нельсон AI