Закажи экспресс-аудит своего дела онлайн всего за 199 ₽
и получи рекомендации по улучшению - Жми сюда !

Исследование Google: как «Ох!» и «Подожди-ка» удваивают точность LLM У…

Исследование Google: как «Ох!» и «Подожди-ка» удваивают точность LLM

У Google вышла неожиданно сильная и почти философская работа о том, что мы вообще называем «рассуждением» в больших языковых моделях.

Ключевая идея:
Reinforcement Learning учит модель не думать дольше, а думать коллективнее — через симуляцию внутреннего диалога.

Если вы замечали, что «думающая» модель:
• задаёт себе вопросы,
• сомневается,
• делает паузы,
• пересобирает позицию,

— то это не побочный эффект. Google утверждает: именно эта структура и есть механизм рассуждения.

Как они это проверили
1. Нашли конкретный нейронный признак, связанный с:
• удивлением,
• осознанием,
• сменой перспективы.
Он стабильно активируется в начале фраз вроде:
«О!», «Подожди-ка», «Ага, значит…»
2. Затем этот признак:
усилили во время генерации,
подавили,
• и сравнили результаты
(эксперимент на DeepSeek-R1-Llama-8B).
3. Результаты на сложных задачах комбинаторной арифметики:
• базовая модель — 27.1%
• с усилением «диалогового маркера» — 54.8%
• с подавлением — 23.8%

Эффект статистически значим и чётко выделяется на фоне других нейронных признаков. Более того, рост этого маркера коррелирует с улучшением стратегического мышления, а не просто с болтливостью.

Вывод (не самый удобный)

LLM, похоже, не столько рассуждают, сколько разыгрывают внутренний совет персонажей: сомневающийся, проверяющий, уточняющий, переосмысливающий.

И да — из этого следует практический, слегка ироничный вывод:
возможно, стоит попробовать в промпте что-то вроде

Используй больше “ах”, “точно”, “ага” — и пересобирай выводы

Исследование: arxiv.org/pdf/2601.10825

Текст "oh, wow." на розовом фоне, минималистичный дизайн.
✅ Найденные теги: Google, LLM, Исследование, новости, Ох, Подожди-ка, Точность

Добавить комментарий

Нет других записей в этой рубрике.

Новости других рубрик