Image

Thinking Machines представила новый подход — On-Policy Distillation

014e09910bc4f2a1b565534327dafb92

Исследователи из Thinking Machines Lab предложили метод, который может изменить то, как обучаются языковые модели. Он называется on-policy distillation — и учит ИИ не просто копировать, а думать и анализировать свои ошибки.

Обычно «дистилляция» работает просто: большая модель-учитель показывает ответы, а маленькая модель-ученик запоминает их. Это похоже на заучивание по шпаргалке — быстро, но без понимания сути.

В новом подходе всё иначе. Ученик сам решает задачи, а учитель оценивает и направляет — объясняет, где логика сбоит и как улучшить рассуждение. Таким образом, меньшая модель перенимает не только знания, но и способ мышления более крупной модели.

Что показали результаты

Эксперименты проводились на задачах математического и логического рассуждения, где важно не просто выдать правильный ответ, а выстроить цепочку шагов.

Результаты впечатляют:

Модель-ученик после обучения с on-policy distillation показала почти ту же точность, что и гораздо более крупная модель-учитель.

При этом вычислительные затраты снизились в несколько раз, делая модель заметно эффективнее и дешевле.

Кроме того, ученик стал лучше понимать собственные ошибки, что повысило устойчивость и надёжность при решении новых, незнакомых задач.

Почему это важно

On-policy distillation решает ключевую проблему традиционных методов — отсутствие адаптивности.

Модель теперь учится на собственных шагах, как человек, — экспериментирует, ошибается, корректирует поведение и растёт.

Это открывает путь к созданию компактных LLM нового поколения, которые рассуждают почти как топовые модели, но стоят в разы дешевле.

Такие модели можно запускать на edge-устройствах, в автономных агентах и локальных сервисах, где важны скорость, приватность и энергоэффективность.

Подробнее: thinkingmachines.ai/blog/on-policy-distillation/

Источник: vk.com

Источник: ai-news.ru

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

ИИ почти всех обгонит? Прогнозы звучат громко, но есть нюансы…
Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.
dummy-img
Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.
Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.
dummy-img
dummy-img
Взаимодействие человека и машины погружается под воду.
Взаимодействие человека и машины погружается под воду.
Image Not Found
Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.

Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.

Вкратце Опубликовано: Изображение предоставлено: Thos Robinson/Getty Images для The New York Times (откроется в новом окне) Джули Борт Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.…

Апр 21, 2026
dummy-img

Как почистить виниловые пластинки (2026): пылесос, ультразвук, чистящий раствор, щетка.

Эти щелчки и треск недопустимы. Приведите свою музыку в порядок с помощью этого удобного руководства. Источник: www.wired.com

Апр 21, 2026
Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Это сегодняшний выпуск The Download, нашей ежедневной новостной рассылки, которая предоставляет вам ежедневную порцию событий в мире технологий. Кибермошенники обходят системы безопасности банков с помощью незаконных инструментов, продаваемых в Telegram. В центре по отмыванию денег в Камбодже…

Апр 21, 2026
Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Это сегодняшний выпуск The Download, нашей ежедневной новостной рассылки, которая предоставляет вам ежедневную порцию событий в мире технологий. Кибермошенники обходят системы безопасности банков с помощью незаконных инструментов, продаваемых в Telegram. В центре по отмыванию денег в Камбодже…

Апр 21, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых