Как думают ИИ-модели: раскладываем рассуждения на эпизоды

Сен 28, 2025 0

Большие модели рассуждений (Large Reasoning Models, LRM) сегодня не просто отвечают, а разворачивают длинные цепочки размышлений. Это помогает им решать более сложные задачи, но создает новую проблему: как понять структуру этих рассуждений и насколько они напоминают человеческое мышление. Исследователи предлагают опереться на хорошо проверенный в когнитивной науке фреймворк — теорию эпизодов Шёнфельда, изначально созданную для анализа того, как люди решают нестандартные математические задачи. Идея проста: разметить текстовые данные решений модели по последовательности эпизодов — Read, Analyze, Plan, Implement, Explore, Verify, Monitor — и посмотреть, какие переходы встречаются чаще и как они связаны с успехом решения.

Откуда берётся эпизодичность

Шёнфельд показал, что опытный решатель задач двигается не хаотично, а эпизодами: читает условие, раскладывает задачу на ключевые отношения, планирует шаги, выполняет вычисления, иногда пробует обходные пути, проверяет себя и следит за процессом. Современные LRM, вроде DeepSeek‑R1 или GPT‑o1, тоже пишут подробно, с паузами и маркерами внимания — это делает их поведение удобным для такой разметки. В работе видно, что переходы Read→Analyze или Plan→Implement встречаются у моделей так же устойчиво, как у людей, а этапы Explore и Verify включаются, когда решение требует перепроверки.

Как собирали и размечали

Исследователи взяли банк задач SAT по математике с подробными метаданными и сгенерировали решения с помощью открытой LRM DeepSeek‑R1. Дальше — двухуровневая разметка: абзацы подписываются как General, Explore или Verify (чтобы фиксировать общий подход), а каждое предложение отмечается одной из семи эпизодных меток. Разметку делали по разработанным гайдам, прошли пилот, обучили аннотаторов и сформировали первый открытый корпус для анализа машинного рассуждения. В сумме — тысячи помеченных предложений и абзацев и полный пакет инструкций для воспроизводимости.

Пример аннотированного процесса рассуждения по адаптированной теории эпизодов Шёнфельда: абзацы помечены слева, предложения цветом кодированы по категориям когнитивных процессов.

Что показал анализ

Картина переходов между эпизодами выглядит осмысленно. Чаще всего модель идет от чтения к анализу, от плана к выполнению, а Explorе возвращается к Analyze, чтобы уточнить понимание. Это похоже на паттерны людей-экспертов и наводит на мысль, что у моделей уже складывается управляемая структура решения.

Матрица переходов состояний на уровне предложений для эталонной разметки; более тёмный цвет означает более высокую вероятность перехода между состояниями.

Дальше авторы спрашивают: могут ли LLM автоматически размечать такие эпизоды? Сравнили GPT‑4.1, GPT‑4o и Gemini‑2.0‑flash в нескольких сценариях: чистый zero-shot, с примерами, с подробным гидом и их комбинацией. Главный вывод — хорошая инструкция заметно улучшает точность. Для GPT‑4.1 на уровне абзацев точность выросла с 0.444 до 0.740 в режиме с инструкцией и до 0.757 при сочетании инструкции и примеров; на уровне предложений — до 0.681. Gemini тоже выигрывает от инструкций. Это означает, что стандартный промт мало пригоден для когнитивной разметки, а аккуратно прописанные правила дают скачок качества.

Авторы также обучили классические модели на размеченных данных: BERT, RoBERTa и простые классификаторы на эмбеддингах. Лучшая из обучаемых систем уступает GPT‑4.1 с инструкцией, но приближается: BERT даёт точность около 0.73 на тесте. По ошибкам видно: часто путаются Analyze с Verify и Implement с Verify — модель делает шаг вычислений и одновременно его проверяет, и людям, и алгоритмам не всегда легко провести четкую границу.

Зачем это всё

Работа даёт не просто набор меток, а теоретически обоснованную схему, которая связывает внешнюю «вербализацию» модели с понятными когнитивными состояниями. Это важно для нескольких направлений:

интерпретация: можно увидеть, где модель планирует, где блуждает, где проверяет себя;
контроль: промтами или политиками можно усиливать нужные эпизоды, например, заставлять чаще проверять;
обучение: можно вознаграждать корректные переходы и наказывать бессмысленные циклы Explore.

Корпус собран на задачах SAT — это умеренный уровень сложности. Впереди проверка на олимпиадной математике и других доменах. Автоматическая аннотация уже рабочая, но до стабильности в промышленных сценариях ещё есть путь. Наконец, пограничные случаи между эпизодами требуют донастройки правил и, возможно, более богатого контекста.

Итог

Авторы аккуратно переносят теорию Шёнфельда в мир LRM и показывают, что длинные рассуждения моделей действительно складываются в эпизоды с узнаваемыми переходами. Открытый корпус и подробные инструкции задают стандарт для будущих работ по интерпретируемости и более управляемым системам рассуждений.

📜 Полная статья

💾 Код

***

Если вам интересна тема ИИ, подписывайтесь на мой Telegram‑канал — там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.

Источник: habr.com

Метки:

Как новости

ПРЕДЫДУЩАЯ ЗАПИСЬ

28.09.2025

«Так отчаянно пытаются найти хоть какое-то применение ИИ, что отказались от всякой видимости порядочности»: некоторые пользователи раскритиковали ИИ-аватар Стэна Ли на Comic Con

СЛЕДУЮЩАЯ ЗАПИСЬ

28.09.2025

Инфраструктурные сделки на миллиарды долларов, стимулирующие бум ИИ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

Еще новости рубрики

Архив рубрики ~Обо всем~

Фантазии

Июл 2, 2024

Архив рубрики ~Обо всем~

Мировоззрение

Июл 2, 2024

Архив рубрики ~Обо всем~

Влияние выдумщиков и фантазеров на развитие…

Июл 2, 2024

Архив рубрики ~Обо всем~

Нет ничего невозможного

Июл 2, 2024

Присоединяйтесь
к нам в

TELEGRAM

галерея

Теперь Meta позволит родителям видеть темы, которые их ребенок обсуждал с Meta AI.

Природный белок может защитить желудочно-кишечный тракт от инфекций.

Предоставляем биологам по всему миру инструменты для проектирования белков на основе искусственного интеллекта.

Новый квантовый инструментарий для оптимизации

НОВОСТИ ДРУГИХ РУБРИК

Архив рубрики ~Лента новостей~

Теперь Meta позволит родителям видеть темы, которые их ребенок обсуждал с Meta AI.

Источник изображения: Джонатан Раа/NurPhoto / Getty Images В четверг компания Meta объявила, что родители, использующие ее инструменты для контроля, теперь могут видеть темы, по которым их подросток задавал вопросы искусственному интеллекту Meta за последнюю неделю в Facebook,…

ЧИТАТЬ

Апр 23, 2026

Архив рубрики ~Лента новостей~

Информатор из USAID утверждает, что ситуация была даже хуже, чем предполагали люди.

По словам информатора, назначенные по политическим соображениям лица хотели тихого сокращения численности войск. DOGE же хотел казни. Источник: www.wired.com

ЧИТАТЬ

Апр 23, 2026

Архив рубрики ~Лента новостей~

Информатор из USAID утверждает, что ситуация была даже хуже, чем предполагали люди.

ЧИТАТЬ

Апр 23, 2026

Архив рубрики ~Лента новостей~

Природный белок может защитить желудочно-кишечный тракт от инфекций.

Слева: Интелектин-2 стабилизирует слизистый слой на здоровых тканях. Справа: Белок нейтрализует бактерии в воспаленном желудочно-кишечном тракте. Предоставлено исследователями. Белки, называемые лектинами, встроенные в слизистые оболочки организма, связываются с сахарами, находящимися на поверхности клеток. Группа исследователей под руководством…

ЧИТАТЬ

Апр 23, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых

ИдеиPRO

Как думают ИИ-модели: раскладываем рассуждения на эпизоды

Откуда берётся эпизодичность

Как собирали и размечали

Что показал анализ

Зачем это всё

Итог

Еще новости рубрики

Присоединяйтесь к нам в

Рубрики

галерея

НОВОСТИ ДРУГИХ РУБРИК

Присоединяйтесь
к нам в