Intel и Институт Вейцмана ускорили AI с помощью спекулятивного декодирования 🖥
На Международной конференции по машинному обучению (ICML 2025) исследователи Intel Labs и Вейцмановского института п<a href=«https://newsroom.intel.com/artificial-intelligence/intel-weizmann-institute-speed-ai-with-speculative-decoding-advance»>оказали универсальное усовершенствование спекулятивного декодирования (speculative decoding) — метода ускорения вывода LLM.
Классическая схема предполагает работу пары: быстрая «черновая» модель создает предварительный ответ, а большая — проверяет и дорабатывает его. Традиционная модель LLM генерирует каждое слово шаг за шагом. К примеру, она вычисляет слово «Париж», затем «знаменитый», затем «город» и так далее, задействовав значительные ресурсы на каждом этапе. Главное ограничение такого подхода — необходимость согласованного словаря и общего обучения моделей.
Новая методика снимает эти ограничения: теперь любая быстрая модель может ускорять любую LLM (независимо от их происхождения и архитектуры). Благодаря спекулятивному декодированию небольшая модель-помощник быстро составляет полную фразу «Париж — знаменитый город…». Затем большая модель проверяет последовательность. Это значительно сокращает количество вычислительных циклов на выходной токен.
Разработчики п<a href="https://arxiv.org/pdf/2502.05202″>редставили три алгоритма, устраняющих зависимость от общего словаря и позволяющих формировать универсальные пары моделей. В результате работа модели ускоряется до 2,8 раза без потери качества.
Алгоритмы уже добавлены в библиотеку Hugging Face Transformers и доступны без дополнительной настройки.
Метод особенно актуален в условиях фрагментированного AI-ландшафта: это повышает совместимость между моделями и платформами и удешевляет стоимость вывода. По словам исследователей, технология превращает speculative decoding из специализированного приема в производственный стандарт с открытым исходным кодом, доступный для любого приложения.























