Обучение агентов искусственного интеллекта задавать более качественные вопросы с помощью игры «Морской бой».

Исследователи из Массачусетского технологического института используют классическую игру в качестве испытательного полигона для агентов искусственного интеллекта и обнаруживают, что небольшая модель ИИ может превзойти самые большие, затратив на это всего 1 процент средств. В ходе исследования, проведенного учеными из MIT, модели искусственного интеллекта были усовершенствованы благодаря тщательному взвешиванию вариантов размещения игровых фишек на каждом ходу. Такой подход помог гораздо меньшим моделям завершить игру за меньшее количество ходов, чем ведущим. Изображение: Алекс Шиппс/MIT CSAIL, с использованием материалов AdobeStock.

В 2026 году ажиотаж вокруг агентов искусственного интеллекта достиг небывалых высот. Эти полуавтономные программы способны «думать» и выполнять четко определенные задачи в таких областях, как обслуживание клиентов и разработка программного обеспечения, как правило, используя языковые модели (ЯМ). Однако такие области, как медицинская диагностика и научные открытия, требуют от них поиска решений в условиях неопределенности, с чем ЯМ испытывают трудности.

Исследователи из Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института (CSAIL) и Инженерной школы прикладных наук Гарвардского университета (SEAS) углубились в изучение языковых моделей, чтобы понять их основные проблемы в условиях высоких ставок. Их тест: «Морской бой» — классическая игра в угадывание, которая помогла когнитивным ученым изучить, как люди ищут информацию.

Ученые из CSAIL и SEAS внесли изюминку, переосмыслив игру, построив ее вокруг задавания и ответа на вопросы на естественном языке. В их игре «Морской бой в команде» один участник выступает в роли «капитана», который спрашивает о местонахождении спрятанных кораблей, а его товарищ по команде играет роль «наблюдателя», отвечая на эти вопросы в режиме реального времени.

Сначала исследователи попросили более 40 человек сыграть в игру вместе, собрав их вопросы и ответы «да-нет», чтобы создать набор данных «BattleshipQA». Эти результаты стали полезной точкой сравнения, когда команда тестировала на своей игре передовые языковые модели (такие как GPT-5) и более простые модели (такие как Llama 4 Scout). Без предварительного обучения моделей они обнаружили, что лучшие языковые модели могут «победить» людей в «Морском бою» — то есть, завершить игру за меньшее количество ходов, — но более простые системы гораздо менее рациональны.

Главная проблема заключалась в том, что многие модели просто не умеют формулировать полезные вопросы. Чтобы заставить языковые модели задавать вопросы таким образом, чтобы получить больше информации о скрытых кораблях, исследователи предоставили каждой модели стратегию вывода методом Монте-Карло, которая тщательно измеряет вероятность правильности различных вариантов ответа. Результат: модели ИИ, способные обыграть обычных игроков в «Морской бой», независимо от масштаба.

Пожалуй, наиболее впечатляющими результатами стали достижения Llama 4 Scout. Будучи относительно небольшой языковой моделью, она превосходила людей лишь в 8% случаев. Но благодаря усовершенствованию стратегии вывода, модель достигла показателя побед в «Морском бою» в 82% против людей. Этот тщательный и эффективный подход к формулированию вопросов также позволил модели превзойти передовую модель (GPT-5), работая при этом примерно на 1% дешевле.

В дополнение к этому улучшению, исследователи сократили разрыв между людьми и языковыми моделями в ответах на вопросы. Хотя GPT-5 был надежным инструментом, помогавшим моделям быстрее завершать игры, у меньших систем была плохая привычка давать неверные ответы о том, где спрятаны корабли. Модели показали повышение точности в среднем на 15 процентов, когда начали преобразовывать вопросы в код, который явно указывает им, как проверять свои ответы (например, заставляя модель быстро искать корабль в определенной области, когда ее спрашивают, находится ли там корабль).

«Современные языковые модели в первую очередь оптимизированы для ответа на сложные запросы, но неясно, учатся ли они сами задавать правильные вопросы», — говорит аспирант MIT и исследователь CSAIL Габриэль Гранд SM '23, ведущий автор статьи об этой работе. «Наша работа показывает, что умение задавать информативные вопросы зависит от способности предсказывать и моделировать мир. Мы обнаружили, что когда мы предоставляем агентам доступ к «модели мира», они задают более качественные вопросы и делают открытия более эффективно».

Для LM произошли кардинальные перемены.

Первоочередной задачей команды было научить языковых менеджеров задавать более качественные вопросы. Внедряя стратегии вывода методом Монте-Карло, языковые менеджеры рассуждают о потенциальных предположениях как об отдельных частицах. Предположения, которые кажутся более обоснованными с каждым ответом наблюдателя, получают больший вес, подобно игровым мячам, которые надуваются или сдуваются с каждым ходом. Благодаря такому более продуманному, адаптивному подходу капитан мог задавать вопросы, которые позволяли получить от наблюдателя значительно больше информации.

Затем учёные обратились к широко используемому языку программирования Python, чтобы помочь системам обнаружения объектов с помощью ИИ. Каждый вопрос, заданный капитаном, автоматически преобразовывался в закодированную команду. Например, вопрос типа: «Есть ли в первом столбце корабль, занимающий две строки?» превращается в инструкции для системы обнаружения объектов LM, чтобы та осмотрела интересующую область и оценила ширину цифровой игровой фигуры. Благодаря чётким указаниям на языке, который модель хорошо понимает, каждая система стала давать правильные ответы значительно чаще. Например, производительность лёгкой системы GPT-4o-mini выросла почти на 30 процентов, а даже большая модель Claude 4 Opus показала прирост примерно на восемь пунктов.

«В этой области достигнуты значительные успехи благодаря стратегиям «автоматической формализации», в которых языковые модели генерируют код для проверки своих решений», — говорит ведущий автор исследования Джейкоб Андреас, доцент кафедры электротехники и информатики Массачусетского технологического института и главный исследователь CSAIL. «Что меня больше всего вдохновляет в этой работе, так это то, что она открывает возможность использования этих методов для генерации более качественных решений с самого начала, улучшая возможности языковых моделей по исследованию и сбору информации. Мы с нетерпением ждем возможности масштабировать эту работу от научных областей до таких приложений, как программирование и решение математических задач».

Давайте сыграем во что-нибудь другое.

Но как бы этот подход показал себя в других настольных играх? Команда протестировала свои недавно оснащенные LM в игре «Угадай кто?», где большие и маленькие модели умело отбирали из 100 вариантов, чтобы правильно угадать, какой скрытый персонаж был выбран. Лама 4 Scout успешно справлялась с задачей в 30% случаев, но после доработок Гранда и его коллег она выполняла задание более чем в 72% случаев. Тем временем, GPT-4o подскочил с 62% до 90%. GPT-5 был наблюдателем в каждой игре, чтобы гарантировать максимально точные ответы на вопросы.

Хотя языковые модели продемонстрировали многообещающий прогресс в обеих играх, есть куда стремиться. Например, моделям по-прежнему сложно отвечать на сложные вопросы по сравнению с людьми. Исследователь OpenAI, недавний выпускник Гарварда и соавтор Валерио Пепе добавляет: «GPT-5 может обыграть среднестатистического игрока в «Морской бой» и немного превосходить его с помощью наших методов. Однако, в отличие от шахмат, где даже лучшие игроки не могут победить системы ИИ, экспертам по-прежнему сложно противостоять всем моделям».

Результаты исследований показывают, что у агентов ИИ есть нераскрытый потенциал в поиске «иголки в стоге сена» — в умении ориентироваться в огромном пространстве вариантов для нахождения редкого решения научных задач. Хотя улучшенные навыки поиска информации сделали бы их отличными помощниками в исследованиях, например, в определении молекулярной структуры соединения, исследователи предупреждают, что «совместный морской бой» — это довольно простая тестовая площадка. Они хотели бы протестировать языковые модели в более сложных условиях, где системам приходится учитывать гораздо больше вариантов.

Гранд также планирует организовать совместную работу людей и моделей ИИ, чтобы изучить, насколько эффективно они взаимодействуют. Модели также могут выиграть от некоторой доработки в симуляциях игр, а с увеличением вычислительной мощности языковые модели получат более продвинутые возможности для прогнозирования развития игры.

«По мере того, как системы ИИ становятся все более агентными, самые сложные проблемы оказываются социальными: поиск точек соприкосновения, разрешение недоразумений и адаптация к различным партнерам с течением времени», — говорит Роберт Хокинс, доцент лингвистики Стэнфордского университета, не принимавший участия в написании статьи. «Эта работа элегантно описывает эти явления в контролируемой среде сотрудничества и убедительно доказывает, что реальным узким местом для агентов ИИ является не только вычисление оптимальных вопросов, но и прагматическое мышление, необходимое для того, чтобы максимально эффективно использовать их ответы».

Гранд и Пепе написали статью совместно с двумя ведущими исследователями CSAIL: доцентом MIT Джейкобом Андреасом и профессором MIT Джошуа Тенебаумом. Их работа частично финансировалась программой MIT Siegel Family Quest for Intelligence, лабораторией MIT-IBM Watson AI Lab, инициативой FinTechAI@CSAIL, стипендией Слоуна, компанией Intel, Управлением научных исследований ВВС, Агентством перспективных оборонных исследований, Управлением военно-морских исследований и Национальным научным фондом. Они представили свою статью в виде устного доклада на Международной конференции по обучению представлениям (ICLR) в апреле.

Источник: news.mit.edu

✅ Найденные теги: Агентов, Задавать, Интеллекта, Искусственного, новости, Обучение

Обучение агентов искусственного интеллекта задавать более качественные вопросы с помощью игры «Морской бой».

Добавить комментарий Отменить ответ

Новости других рубрик

Похожие записи

Добавить комментарий Отменить ответ

Новости других рубрик