Как думают ИИ-модели: раскладываем рассуждения на эпизоды

Сен 28, 2025 0

Большие модели рассуждений (Large Reasoning Models, LRM) сегодня не просто отвечают, а разворачивают длинные цепочки размышлений. Это помогает им решать более сложные задачи, но создает новую проблему: как понять структуру этих рассуждений и насколько они напоминают человеческое мышление. Исследователи предлагают опереться на хорошо проверенный в когнитивной науке фреймворк — теорию эпизодов Шёнфельда, изначально созданную для анализа того, как люди решают нестандартные математические задачи. Идея проста: разметить текстовые данные решений модели по последовательности эпизодов — Read, Analyze, Plan, Implement, Explore, Verify, Monitor — и посмотреть, какие переходы встречаются чаще и как они связаны с успехом решения.

Откуда берётся эпизодичность

Шёнфельд показал, что опытный решатель задач двигается не хаотично, а эпизодами: читает условие, раскладывает задачу на ключевые отношения, планирует шаги, выполняет вычисления, иногда пробует обходные пути, проверяет себя и следит за процессом. Современные LRM, вроде DeepSeek‑R1 или GPT‑o1, тоже пишут подробно, с паузами и маркерами внимания — это делает их поведение удобным для такой разметки. В работе видно, что переходы Read→Analyze или Plan→Implement встречаются у моделей так же устойчиво, как у людей, а этапы Explore и Verify включаются, когда решение требует перепроверки.

Как собирали и размечали

Исследователи взяли банк задач SAT по математике с подробными метаданными и сгенерировали решения с помощью открытой LRM DeepSeek‑R1. Дальше — двухуровневая разметка: абзацы подписываются как General, Explore или Verify (чтобы фиксировать общий подход), а каждое предложение отмечается одной из семи эпизодных меток. Разметку делали по разработанным гайдам, прошли пилот, обучили аннотаторов и сформировали первый открытый корпус для анализа машинного рассуждения. В сумме — тысячи помеченных предложений и абзацев и полный пакет инструкций для воспроизводимости.

Пример аннотированного процесса рассуждения по адаптированной теории эпизодов Шёнфельда: абзацы помечены слева, предложения цветом кодированы по категориям когнитивных процессов.

Что показал анализ

Картина переходов между эпизодами выглядит осмысленно. Чаще всего модель идет от чтения к анализу, от плана к выполнению, а Explorе возвращается к Analyze, чтобы уточнить понимание. Это похоже на паттерны людей-экспертов и наводит на мысль, что у моделей уже складывается управляемая структура решения.

Матрица переходов состояний на уровне предложений для эталонной разметки; более тёмный цвет означает более высокую вероятность перехода между состояниями.

Дальше авторы спрашивают: могут ли LLM автоматически размечать такие эпизоды? Сравнили GPT‑4.1, GPT‑4o и Gemini‑2.0‑flash в нескольких сценариях: чистый zero-shot, с примерами, с подробным гидом и их комбинацией. Главный вывод — хорошая инструкция заметно улучшает точность. Для GPT‑4.1 на уровне абзацев точность выросла с 0.444 до 0.740 в режиме с инструкцией и до 0.757 при сочетании инструкции и примеров; на уровне предложений — до 0.681. Gemini тоже выигрывает от инструкций. Это означает, что стандартный промт мало пригоден для когнитивной разметки, а аккуратно прописанные правила дают скачок качества.

Авторы также обучили классические модели на размеченных данных: BERT, RoBERTa и простые классификаторы на эмбеддингах. Лучшая из обучаемых систем уступает GPT‑4.1 с инструкцией, но приближается: BERT даёт точность около 0.73 на тесте. По ошибкам видно: часто путаются Analyze с Verify и Implement с Verify — модель делает шаг вычислений и одновременно его проверяет, и людям, и алгоритмам не всегда легко провести четкую границу.

Зачем это всё

Работа даёт не просто набор меток, а теоретически обоснованную схему, которая связывает внешнюю «вербализацию» модели с понятными когнитивными состояниями. Это важно для нескольких направлений:

интерпретация: можно увидеть, где модель планирует, где блуждает, где проверяет себя;
контроль: промтами или политиками можно усиливать нужные эпизоды, например, заставлять чаще проверять;
обучение: можно вознаграждать корректные переходы и наказывать бессмысленные циклы Explore.

Корпус собран на задачах SAT — это умеренный уровень сложности. Впереди проверка на олимпиадной математике и других доменах. Автоматическая аннотация уже рабочая, но до стабильности в промышленных сценариях ещё есть путь. Наконец, пограничные случаи между эпизодами требуют донастройки правил и, возможно, более богатого контекста.

Итог

Авторы аккуратно переносят теорию Шёнфельда в мир LRM и показывают, что длинные рассуждения моделей действительно складываются в эпизоды с узнаваемыми переходами. Открытый корпус и подробные инструкции задают стандарт для будущих работ по интерпретируемости и более управляемым системам рассуждений.

📜 Полная статья

💾 Код

***

Если вам интересна тема ИИ, подписывайтесь на мой Telegram‑канал — там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.

Источник: habr.com

Метки:

Как новости

ПРЕДЫДУЩАЯ ЗАПИСЬ

28.09.2025

«Так отчаянно пытаются найти хоть какое-то применение ИИ, что отказались от всякой видимости порядочности»: некоторые пользователи раскритиковали ИИ-аватар Стэна Ли на Comic Con

СЛЕДУЮЩАЯ ЗАПИСЬ

28.09.2025

Инфраструктурные сделки на миллиарды долларов, стимулирующие бум ИИ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

Еще новости рубрики

Архив рубрики ~Обо всем~

Фантазии

Июл 2, 2024

Архив рубрики ~Обо всем~

Мировоззрение

Июл 2, 2024

Архив рубрики ~Обо всем~

Влияние выдумщиков и фантазеров на развитие…

Июл 2, 2024

Архив рубрики ~Обо всем~

Нет ничего невозможного

Июл 2, 2024

Присоединяйтесь
к нам в

TELEGRAM

галерея

Новый квантовый инструментарий для оптимизации

Объяснение масштабирования от обучающей к тестовой выборке: как оптимизировать общий вычислительный бюджет для ИИ при выполнении инференса.

Инженеры сделали модульных роботов из шаров и палок. Они могут объединяться в более крупных роботов

Молодой ученый из Лесосибирска вошел в рейтинг Forbes «30 до 30»

Аспирант решил давнюю проблему узла Конвея.

НОВОСТИ ДРУГИХ РУБРИК

Архив рубрики ~Лента новостей~

Новый квантовый инструментарий для оптимизации

Новая теоретическая работа от Google Quantum AI показывает, что крупномасштабные квантовые компьютеры могут решать определенные задачи оптимизации, которые неразрешимы для обычных классических компьютеров. Быстрые ссылки Бумага Делиться Скопировать ссылку × От разработки более эффективных авиамаршрутов до организации…

ЧИТАТЬ

Апр 23, 2026

Архив рубрики ~Лента новостей~

Новый квантовый инструментарий для оптимизации

ЧИТАТЬ

Апр 23, 2026

Архив рубрики ~Лента новостей~

Ускоряем развитие экосистемы киберзащиты, которая защищает всех нас | OpenAI

Концепция «Доверенный доступ для кибербезопасности » основана на простой предпосылке: передовые возможности кибербезопасности должны быть доступны широкому кругу защитников, но доступ должен масштабироваться за счет доверия, проверки и мер безопасности. Сегодня мы расскажем о первых организациях, которые…

ЧИТАТЬ

Апр 23, 2026

Архив рубрики ~Лента новостей~