Как думают ИИ-модели: раскладываем рассуждения на эпизоды

Сен 28, 2025 0

Большие модели рассуждений (Large Reasoning Models, LRM) сегодня не просто отвечают, а разворачивают длинные цепочки размышлений. Это помогает им решать более сложные задачи, но создает новую проблему: как понять структуру этих рассуждений и насколько они напоминают человеческое мышление. Исследователи предлагают опереться на хорошо проверенный в когнитивной науке фреймворк — теорию эпизодов Шёнфельда, изначально созданную для анализа того, как люди решают нестандартные математические задачи. Идея проста: разметить текстовые данные решений модели по последовательности эпизодов — Read, Analyze, Plan, Implement, Explore, Verify, Monitor — и посмотреть, какие переходы встречаются чаще и как они связаны с успехом решения.

Откуда берётся эпизодичность

Шёнфельд показал, что опытный решатель задач двигается не хаотично, а эпизодами: читает условие, раскладывает задачу на ключевые отношения, планирует шаги, выполняет вычисления, иногда пробует обходные пути, проверяет себя и следит за процессом. Современные LRM, вроде DeepSeek‑R1 или GPT‑o1, тоже пишут подробно, с паузами и маркерами внимания — это делает их поведение удобным для такой разметки. В работе видно, что переходы Read→Analyze или Plan→Implement встречаются у моделей так же устойчиво, как у людей, а этапы Explore и Verify включаются, когда решение требует перепроверки.

Как собирали и размечали

Исследователи взяли банк задач SAT по математике с подробными метаданными и сгенерировали решения с помощью открытой LRM DeepSeek‑R1. Дальше — двухуровневая разметка: абзацы подписываются как General, Explore или Verify (чтобы фиксировать общий подход), а каждое предложение отмечается одной из семи эпизодных меток. Разметку делали по разработанным гайдам, прошли пилот, обучили аннотаторов и сформировали первый открытый корпус для анализа машинного рассуждения. В сумме — тысячи помеченных предложений и абзацев и полный пакет инструкций для воспроизводимости.

Пример аннотированного процесса рассуждения по адаптированной теории эпизодов Шёнфельда: абзацы помечены слева, предложения цветом кодированы по категориям когнитивных процессов.

Что показал анализ

Картина переходов между эпизодами выглядит осмысленно. Чаще всего модель идет от чтения к анализу, от плана к выполнению, а Explorе возвращается к Analyze, чтобы уточнить понимание. Это похоже на паттерны людей-экспертов и наводит на мысль, что у моделей уже складывается управляемая структура решения.

Матрица переходов состояний на уровне предложений для эталонной разметки; более тёмный цвет означает более высокую вероятность перехода между состояниями.

Дальше авторы спрашивают: могут ли LLM автоматически размечать такие эпизоды? Сравнили GPT‑4.1, GPT‑4o и Gemini‑2.0‑flash в нескольких сценариях: чистый zero-shot, с примерами, с подробным гидом и их комбинацией. Главный вывод — хорошая инструкция заметно улучшает точность. Для GPT‑4.1 на уровне абзацев точность выросла с 0.444 до 0.740 в режиме с инструкцией и до 0.757 при сочетании инструкции и примеров; на уровне предложений — до 0.681. Gemini тоже выигрывает от инструкций. Это означает, что стандартный промт мало пригоден для когнитивной разметки, а аккуратно прописанные правила дают скачок качества.

Авторы также обучили классические модели на размеченных данных: BERT, RoBERTa и простые классификаторы на эмбеддингах. Лучшая из обучаемых систем уступает GPT‑4.1 с инструкцией, но приближается: BERT даёт точность около 0.73 на тесте. По ошибкам видно: часто путаются Analyze с Verify и Implement с Verify — модель делает шаг вычислений и одновременно его проверяет, и людям, и алгоритмам не всегда легко провести четкую границу.

Зачем это всё

Работа даёт не просто набор меток, а теоретически обоснованную схему, которая связывает внешнюю «вербализацию» модели с понятными когнитивными состояниями. Это важно для нескольких направлений:

интерпретация: можно увидеть, где модель планирует, где блуждает, где проверяет себя;
контроль: промтами или политиками можно усиливать нужные эпизоды, например, заставлять чаще проверять;
обучение: можно вознаграждать корректные переходы и наказывать бессмысленные циклы Explore.

Корпус собран на задачах SAT — это умеренный уровень сложности. Впереди проверка на олимпиадной математике и других доменах. Автоматическая аннотация уже рабочая, но до стабильности в промышленных сценариях ещё есть путь. Наконец, пограничные случаи между эпизодами требуют донастройки правил и, возможно, более богатого контекста.

Итог

Авторы аккуратно переносят теорию Шёнфельда в мир LRM и показывают, что длинные рассуждения моделей действительно складываются в эпизоды с узнаваемыми переходами. Открытый корпус и подробные инструкции задают стандарт для будущих работ по интерпретируемости и более управляемым системам рассуждений.

📜 Полная статья

💾 Код

***

Если вам интересна тема ИИ, подписывайтесь на мой Telegram‑канал — там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.

Источник: habr.com

Метки:

Как новости

ПРЕДЫДУЩАЯ ЗАПИСЬ

28.09.2025

«Так отчаянно пытаются найти хоть какое-то применение ИИ, что отказались от всякой видимости порядочности»: некоторые пользователи раскритиковали ИИ-аватар Стэна Ли на Comic Con

СЛЕДУЮЩАЯ ЗАПИСЬ

28.09.2025

Инфраструктурные сделки на миллиарды долларов, стимулирующие бум ИИ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

Еще новости рубрики

Архив рубрики ~Обо всем~

Фантазии

Июл 2, 2024

Архив рубрики ~Обо всем~

Мировоззрение

Июл 2, 2024

Архив рубрики ~Обо всем~

Влияние выдумщиков и фантазеров на развитие…

Июл 2, 2024

Архив рубрики ~Обо всем~

Нет ничего невозможного

Июл 2, 2024

Присоединяйтесь
к нам в

TELEGRAM

галерея

Инженеры сделали модульных роботов из шаров и палок. Они могут объединяться в более крупных роботов

Молодой ученый из Лесосибирска вошел в рейтинг Forbes «30 до 30»

Аспирант решил давнюю проблему узла Конвея.

Ученые дали лососю кокаин, и вы непременно поверите, что произошло дальше.

Тайваньский ценник ноутбука ASUS ROG Zephyrus Duo 2026 с Core Ultra 9 386H и RTX 5090M составляет $8500

НОВОСТИ ДРУГИХ РУБРИК

Архив рубрики ~Лента новостей~

Инженеры сделали модульных роботов из шаров и палок. Они могут объединяться в более крупных роботов

Они могут объединяться в более крупных роботов Американские инженеры разработали робота с одной степенью свободы, которого можно использовать как базовый модуль-ногу для постройки более сложных и крупных роботов со множеством конечностей. Он может самостоятельно передвигаться по пересеченной местности,…

ЧИТАТЬ

Апр 23, 2026

Архив рубрики ~Лента новостей~

Инженеры сделали модульных роботов из шаров и палок. Они могут объединяться в более крупных роботов

ЧИТАТЬ

Апр 23, 2026

Архив рубрики ~Лента новостей~

Молодой ученый из Лесосибирска вошел в рейтинг Forbes «30 до 30»

Уроженец Лесосибирска 30-летний Иван Стельмах попал в лонг-лист ежегодного рейтинга Forbes «30 до 30» в категории «Наука и технологии». Об этом пишут наши коллеги из «Город Прима». После школы он окончил МФТИ, а затем продолжил обучение в…

ЧИТАТЬ

Апр 23, 2026

Архив рубрики ~Лента новостей~

Тайваньский ценник ноутбука ASUS ROG Zephyrus Duo 2026 с Core Ultra 9 386H и RTX 5090M составляет $8500

Тайваньское подразделение ASUS оповестило пользователей о доступности премиального ноутбука ASUS ROG Zephyrus Duo 2026 на местном рынке, вот только приобрести его смогут только самые обеспеченные пользователи, которым, похоже, не жалко отдавать огромную денежную сумму. Этот ноутбук с…

ЧИТАТЬ

Апр 23, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых

ИдеиPRO

Как думают ИИ-модели: раскладываем рассуждения на эпизоды

Откуда берётся эпизодичность

Как собирали и размечали

Что показал анализ

Зачем это всё

Итог

Еще новости рубрики

Присоединяйтесь к нам в

Рубрики

галерея

НОВОСТИ ДРУГИХ РУБРИК

Присоединяйтесь
к нам в