Исследование Google: как «Ох!» и «Подожди-ка» удваивают точность LLM
У Google вышла неожиданно сильная и почти философская работа о том, что мы вообще называем «рассуждением» в больших языковых моделях.
Ключевая идея:
Reinforcement Learning учит модель не думать дольше, а думать коллективнее — через симуляцию внутреннего диалога.
Если вы замечали, что «думающая» модель:
• задаёт себе вопросы,
• сомневается,
• делает паузы,
• пересобирает позицию,
— то это не побочный эффект. Google утверждает: именно эта структура и есть механизм рассуждения.
Как они это проверили
1. Нашли конкретный нейронный признак, связанный с:
• удивлением,
• осознанием,
• сменой перспективы.
Он стабильно активируется в начале фраз вроде:
«О!», «Подожди-ка», «Ага, значит…»
2. Затем этот признак:
• усилили во время генерации,
• подавили,
• и сравнили результаты
(эксперимент на DeepSeek-R1-Llama-8B).
3. Результаты на сложных задачах комбинаторной арифметики:
• базовая модель — 27.1%
• с усилением «диалогового маркера» — 54.8%
• с подавлением — 23.8%
Эффект статистически значим и чётко выделяется на фоне других нейронных признаков. Более того, рост этого маркера коррелирует с улучшением стратегического мышления, а не просто с болтливостью.
Вывод (не самый удобный)
LLM, похоже, не столько рассуждают, сколько разыгрывают внутренний совет персонажей: сомневающийся, проверяющий, уточняющий, переосмысливающий.
И да — из этого следует практический, слегка ироничный вывод:
возможно, стоит попробовать в промпте что-то вроде
Используй больше “ах”, “точно”, “ага” — и пересобирай выводы
Исследование: arxiv.org/pdf/2601.10825

























