Закажи экспресс-аудит своего дела онлайн всего за 199 ₽
и получи рекомендации по улучшению - Жми сюда !

Thinking Machines представила новый подход — On-Policy Distillation

014e09910bc4f2a1b565534327dafb92

Исследователи из Thinking Machines Lab предложили метод, который может изменить то, как обучаются языковые модели. Он называется on-policy distillation — и учит ИИ не просто копировать, а думать и анализировать свои ошибки.

Обычно «дистилляция» работает просто: большая модель-учитель показывает ответы, а маленькая модель-ученик запоминает их. Это похоже на заучивание по шпаргалке — быстро, но без понимания сути.

В новом подходе всё иначе. Ученик сам решает задачи, а учитель оценивает и направляет — объясняет, где логика сбоит и как улучшить рассуждение. Таким образом, меньшая модель перенимает не только знания, но и способ мышления более крупной модели.

Что показали результаты

Эксперименты проводились на задачах математического и логического рассуждения, где важно не просто выдать правильный ответ, а выстроить цепочку шагов.

Результаты впечатляют:

Модель-ученик после обучения с on-policy distillation показала почти ту же точность, что и гораздо более крупная модель-учитель.

При этом вычислительные затраты снизились в несколько раз, делая модель заметно эффективнее и дешевле.

Кроме того, ученик стал лучше понимать собственные ошибки, что повысило устойчивость и надёжность при решении новых, незнакомых задач.

Почему это важно

On-policy distillation решает ключевую проблему традиционных методов — отсутствие адаптивности.

Модель теперь учится на собственных шагах, как человек, — экспериментирует, ошибается, корректирует поведение и растёт.

Это открывает путь к созданию компактных LLM нового поколения, которые рассуждают почти как топовые модели, но стоят в разы дешевле.

Такие модели можно запускать на edge-устройствах, в автономных агентах и локальных сервисах, где важны скорость, приватность и энергоэффективность.

Подробнее: thinkingmachines.ai/blog/on-policy-distillation/

Источник: vk.com

Источник: ai-news.ru

✅ Найденные теги: Thinking, новости

Нет других записей в этой рубрике.

Новости других рубрик

Архив рубрики ~Лента новостей~: Я протестировал все IP KVM-переключатели в своей домашней лаборатории. Архив рубрики ~Лента новостей~: Основатели компаний делятся ужасными историями о венчурном капитале, и некоторые даже называют конкретные имена. Архив рубрики ~Лента новостей~: MCP-серверы для Claude Code: как подключить Telegram, базы данных и всё что угодно Архив рубрики ~Лента новостей~: Депутат от Лейбористской партии подал в суд на компанию Илона Маска xAI за поддельные изображения сексуального характера. Архив рубрики ~Лента новостей~: Глава подразделения искусственного интеллекта Microsoft заявил, что компания «освободилась» от влияния OpenAI и получила возможность заниматься разработкой сверхинтеллекта. Архив рубрики ~Лента новостей~: Философские столпы моей системы знаний Архив рубрики ~Лента новостей~: Uber заявляет, что затраты на искусственный интеллект того не стоят Архив рубрики ~Лента новостей~: «Я спросил у Алисы, кого выбрать, и вас там не было»: Как устроен ИИ-поиск в Яндексе, Google и Сбере и почему вы теряете клиентов прямо сейчас