Image

Thinking Machines представила новый подход — On-Policy Distillation

014e09910bc4f2a1b565534327dafb92

Исследователи из Thinking Machines Lab предложили метод, который может изменить то, как обучаются языковые модели. Он называется on-policy distillation — и учит ИИ не просто копировать, а думать и анализировать свои ошибки.

Обычно «дистилляция» работает просто: большая модель-учитель показывает ответы, а маленькая модель-ученик запоминает их. Это похоже на заучивание по шпаргалке — быстро, но без понимания сути.

В новом подходе всё иначе. Ученик сам решает задачи, а учитель оценивает и направляет — объясняет, где логика сбоит и как улучшить рассуждение. Таким образом, меньшая модель перенимает не только знания, но и способ мышления более крупной модели.

Что показали результаты

Эксперименты проводились на задачах математического и логического рассуждения, где важно не просто выдать правильный ответ, а выстроить цепочку шагов.

Результаты впечатляют:

Модель-ученик после обучения с on-policy distillation показала почти ту же точность, что и гораздо более крупная модель-учитель.

При этом вычислительные затраты снизились в несколько раз, делая модель заметно эффективнее и дешевле.

Кроме того, ученик стал лучше понимать собственные ошибки, что повысило устойчивость и надёжность при решении новых, незнакомых задач.

Почему это важно

On-policy distillation решает ключевую проблему традиционных методов — отсутствие адаптивности.

Модель теперь учится на собственных шагах, как человек, — экспериментирует, ошибается, корректирует поведение и растёт.

Это открывает путь к созданию компактных LLM нового поколения, которые рассуждают почти как топовые модели, но стоят в разы дешевле.

Такие модели можно запускать на edge-устройствах, в автономных агентах и локальных сервисах, где важны скорость, приватность и энергоэффективность.

Подробнее: thinkingmachines.ai/blog/on-policy-distillation/

Источник: vk.com

Источник: ai-news.ru

✅ Найденные теги: Thinking, новости

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Компания GE HealthCare запускает новую ультразвуковую систему для диагностики сердечно-сосудистых заболеваний.
ideipro logotyp
Лидеры здравоохранения обсуждают «пузырь» искусственного интеллекта, часть 2 | MobiHealthNews
Смартфон с открытым сайтом Medicare.gov на экране, онлайн-сервис здравоохранения.
ideipro logotyp
Ноутбук с программой редактирования изображений, яркое фото человека в синем плаще.
Человек в кожаной куртке демонстрирует процессор на футуристическом фоне.
ideipro logotyp
Отражение деревьев в воде озера, спокойная гладь.
Image Not Found
Компания GE HealthCare запускает новую ультразвуковую систему для диагностики сердечно-сосудистых заболеваний.

Компания GE HealthCare запускает новую ультразвуковую систему для диагностики сердечно-сосудистых заболеваний.

Компания GE HealthCare недавно получила маркировку CE и разрешение FDA 510(k) на свою систему. Фото: Poetra.RH / Shutterstock.com. Компания GE HealthCare представила Vivid Pioneer, новую систему ультразвуковой диагностики сердечно-сосудистой системы, которая использует искусственный интеллект для повышения скорости…

Мар 5, 2026
ideipro logotyp

Компания Оно прекратила разработку препарата Deciphera для лечения солидных опухолей на ранних стадиях по стратегическим причинам.

Дочерняя компания Ono Pharmaceutical, Deciphera Pharmaceuticals, исключила из своего портфеля разработок препарат, находящийся на ранней стадии разработки, для лечения запущенных форм рака. DCC-3084, пан-ингибитор RAF, «больше не входит в наш портфель разработок, и в настоящее время мы…

Мар 5, 2026
Лидеры здравоохранения обсуждают «пузырь» искусственного интеллекта, часть 2 | MobiHealthNews

Лидеры здравоохранения обсуждают «пузырь» искусственного интеллекта, часть 2 | MobiHealthNews

Наряду с опасениями по поводу ИИ, руководители медицинских учреждений заявляют, что эта технология имеет долгосрочный потенциал для улучшения клинических процессов и результатов лечения пациентов, поэтому 2025 год станет годом как энтузиазма, так и осторожного анализа. ИИ Фото:…

Мар 5, 2026
Смартфон с открытым сайтом Medicare.gov на экране, онлайн-сервис здравоохранения.

STAT+: Достаточно ли платит программа Medicare ACCESS?

Вы читаете веб-версию издания STAT о технологиях в здравоохранении. Управление оповещениями для этой статьи Отправить эту статью по электронной почте Поделитесь этой статьей Adobe Вы читаете веб-версию информационного бюллетеня STAT о технологиях в здравоохранении — нашего руководства…

Мар 5, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых