За последний год наблюдался стремительный прогресс в способности больших языковых моделей решать математические задачи на уровне средней школы и выше. Приближается ли искусственный интеллект к уровню математиков-людей?

В серии статей MIT Technology Review «Что дальше?» рассматриваются различные отрасли, тенденции и технологии, чтобы дать вам первое представление о будущем. Остальные статьи можно прочитать здесь.
По мнению DARPA, математика застряла в прошлом. В апреле Агентство перспективных оборонных исследований США (DARPA) запустило новую инициативу под названием expMath — сокращение от Exponentiating Mathematics (Экспоненциальный рост в математике) — которая, как надеется агентство, ускорит темпы прогресса в области исследований, лежащей в основе широкого спектра важнейших практических применений, от информатики и медицины до национальной безопасности.
«Математика оказывает огромное влияние, но её изучение осуществляется более или менее так же, как и на протяжении веков — людьми, стоящими у классных досок», — сказал руководитель программы DARPA Патрик Шафто в видеоролике, представляющем эту инициативу.
Связанная статья
Современный мир построен на математике. Математика позволяет нам моделировать сложные системы, такие как обтекание самолета воздушным потоком, колебания финансовых рынков и кровообращение в сердце. А прорывы в высшей математике могут открыть новые технологии, такие как криптография, необходимая для обмена личными сообщениями и онлайн-банкинга, и сжатие данных, позволяющее передавать изображения и видео через интернет.
Однако прогресс в математике может занимать годы. DARPA хочет ускорить этот процесс. Цель проекта expMath — побудить математиков и исследователей в области искусственного интеллекта разработать то, что DARPA называет «соавтором ИИ», — инструмент, который мог бы разбивать большие, сложные математические задачи на более мелкие, простые, которые легче понять и, как предполагается, быстрее решить.
Математики десятилетиями использовали компьютеры для ускорения вычислений или проверки истинности определенных математических утверждений. Новая концепция заключается в том, что искусственный интеллект может помочь им решить проблемы, которые ранее казались неразрешимыми.
Но существует огромная разница между ИИ, способным решать задачи, которые задают в средней школе — математические задачи, которые уже освоили модели последнего поколения, — и ИИ, который (теоретически) мог бы решать задачи, над которыми профессиональные математики работают всю свою карьеру.
С одной стороны, существуют инструменты, способные автоматизировать определенные задачи, которые выполняют выпускники математических факультетов; с другой — инструменты, способные расширить границы человеческих знаний за пределы их существующих ограничений.
Вот три способа взглянуть на эту пропасть.
1/ Искусственному интеллекту нужно нечто большее, чем просто хитрые трюки.
Крупные языковые модели, как известно, не очень хорошо справляются с математикой. Они выдумывают вещи и могут быть убеждены в том, что 2 + 2 = 5. Но более новые версии этой технологии, особенно так называемые большие модели рассуждений (LRM), такие как o3 от OpenAI и Claude 4 Thinking от Anthropic, гораздо более способны — и это вызывает большой интерес у математиков.
В этом году ряд программ с линейной регрессией (LRM), которые пытаются решить задачу шаг за шагом, а не выдают первый попавшийся результат, показали высокие результаты на Американском пригласительном математическом экзамене (AIME), тесте, который сдают 5% лучших учеников американских старших классов по математике.
В то же время, ряд новых гибридных моделей, сочетающих в себе модели с линейной логикой и системы проверки фактов, также добились прорывов. Эмили де Оливейра Сантос, математик из Университета Сан-Паулу, Бразилия, указывает на AlphaProof от Google DeepMind — систему, которая сочетает в себе модель с линейной логикой и игровую модель AlphaZero от DeepMind, — как на одну из ключевых вех. В прошлом году AlphaProof стала первой компьютерной программой, которая смогла сравниться по результатам с серебряным призёром Международной математической олимпиады, одного из самых престижных математических конкурсов в мире.
А в мае модель Google DeepMind под названием AlphaEvolve показала результаты, превосходящие все, что когда-либо были достигнуты людьми, в решении более 50 нерешенных математических задач и нескольких реальных задач из области информатики.
Очевиден прогресс. «GPT-4 не мог выполнять математические вычисления на уровне выше университетского», — говорит де Оливейра Сантос. «Я помню, как тестировала его во время выпуска на задаче по топологии, и он просто не мог написать больше нескольких строк, не теряясь при этом полностью». Но когда она дала ту же задачу OpenAI o1, LRM, выпущенному в январе, тот справился на отлично.
Означает ли это, что подобные модели готовы стать теми соавторами, на которых надеется DARPA? Не обязательно, говорит она: «Задачи математической олимпиады часто требуют умения применять хитрые приемы, тогда как исследовательские задачи носят гораздо более исследовательский характер и часто включают в себя гораздо больше движущихся элементов». Успех в решении задач одного типа может не переноситься на другой.
Другие согласны. Мартин Бридсон, математик из Оксфордского университета, считает результат математической олимпиады большим достижением. «С другой стороны, я не нахожу его чем-то сногсшибательным, — говорит он. — Это не смена парадигмы в том смысле, что „Ух ты, я думал, машины никогда не смогут этого сделать“. Я ожидал, что машины смогут это сделать».
Это потому, что, хотя задачи на математической олимпиаде — и аналогичные тесты для старшеклассников или студентов, такие как AIME — сложны, во многих из них прослеживается определенная закономерность. «У нас есть тренировочные лагеря, где старшеклассников учат решать эти задачи», — говорит Бридсон. «И если вы можете обучить большое количество людей решать эти задачи, почему бы не обучить этому и машину?»
Сергей Гуков, математик из Калифорнийского технологического института, тренирующий команды на математических олимпиадах, отмечает, что стиль задач не сильно меняется от соревнований к соревнованиям. Каждый год ставятся новые задачи, но их можно решить теми же старыми приемами.
«Конечно, конкретных проблем раньше не встречалось, — говорит Гуков. — Но они очень похожи — всего лишь шаг от бесчисленного множества вещей, которые вы уже видели. Вы сразу понимаете: „Боже мой, сколько сходств — я применю ту же тактику“». Как бы сложна ни была математика на соревновательном уровне, детей и машины можно научить её преодолевать.
Связанная статья
Это не относится к большинству нерешенных математических задач. Бридсон — президент Института математики Клэя, некоммерческой исследовательской организации в США, наиболее известной тем, что в 2000 году учредила «Проблемы тысячелетия» — семь важнейших нерешенных задач в математике, за решение каждой из которых предусмотрен приз в размере 1 миллиона долларов. (Одна из проблем, гипотеза Пуанкаре, была решена в 2010 году; остальные, включая P против NP и гипотезу Римана, остаются открытыми). «Мы очень далеки от того, чтобы ИИ смог сказать что-либо серьезное по поводу любой из этих проблем», — говорит Бридсон.
И все же трудно точно сказать, насколько далеко это находится, потому что многие из существующих критериев оценки прогресса уже достигли своих пределов. Лучшие новые модели уже превосходят большинство людей в таких тестах, как AIME.
Чтобы лучше понять возможности существующих систем, стартап Epoch AI разработал новый тест FrontierMath, выпущенный в декабре. Вместо того чтобы использовать математические тесты, разработанные для людей, Epoch AI сотрудничал с более чем 60 математиками со всего мира, чтобы с нуля составить набор математических задач.
Проект FrontierMath призван исследовать пределы возможностей современного искусственного интеллекта. Ни одна из задач не встречалась ранее, и большинство из них держатся в секрете, чтобы избежать загрязнения обучающих данных. Решение каждой задачи требует многочасовой работы от опытных математиков — если им вообще удастся её решить: для решения некоторых задач необходимы специальные знания.
FrontierMath готовится стать отраслевым стандартом. По словам де Оливейры Сантоса, который участвовал в разработке некоторых задач, он пока не так популярен, как AIME: «Но я ожидаю, что это продлится недолго, поскольку существующие бенчмарки близки к насыщению».
На AIME лучшие модели обработки больших данных (Claude 4 от Anthropic, o3 и o4-mini от OpenAI, Gemini 2.5 Pro от Google DeepMind, Grok 3 от X-AI) теперь показывают результат около 90%. На FrontierMath o4-mini набирает 19%, а Gemini 2.5 Pro — 13%. Это по-прежнему впечатляющий результат, но есть явные возможности для улучшения.
Программа FrontierMath должна наилучшим образом продемонстрировать, насколько быстро развивается искусственный интеллект в математике. Но есть некоторые задачи, которые по-прежнему слишком сложны для решения компьютерами.
2/ Искусственному интеллекту необходимо обрабатывать действительно обширные последовательности шагов.
Если присмотреться, то в некотором смысле математические задачи начинают казаться одинаковыми: для их решения необходимо выполнить последовательность шагов от начала до конца. Проблема заключается в том, чтобы найти эти шаги.
«Практически любую математическую задачу можно сформулировать как задачу поиска пути», — говорит Гуков. Что делает одни задачи намного сложнее других, так это количество шагов на этом пути. «Разница между гипотезой Римана и школьной математикой заключается в том, что в школьной математике искомые пути короткие — 10 шагов, 20 шагов, а в самом длинном случае — может быть, 40». Шаги также повторяются между задачами.
«Но для решения гипотезы Римана у нас нет необходимых шагов, и мы ищем чрезвычайно длинный путь — возможно, миллион строк компьютерного доказательства», — говорит Гуков.
Поиск очень длинных последовательностей шагов можно рассматривать как своего рода сложную игру. Именно этому научился AlphaZero от DeepMind, освоив игру в го и шахматы. Партия в го может включать всего несколько сотен ходов. Но чтобы победить, ИИ должен найти выигрышную последовательность ходов среди огромного количества возможных последовательностей. Представьте себе число со 100 нулями в конце, говорит Гуков.
Но это все еще ничтожно мало по сравнению с числом возможных последовательностей, которые могут быть задействованы в доказательстве или опровержении очень сложной математической задачи: «Доказательный путь, состоящий из тысячи или миллиона ходов, включает число с тысячей или миллионом нулей», — говорит Гуков.
Ни одна система искусственного интеллекта не способна обработать такое количество вариантов. Для решения этой проблемы Гуков и его коллеги разработали систему, которая сокращает длину пути, объединяя несколько ходов в один суперход. Это как ботинки, позволяющие делать гигантские шаги: вместо 2000 шагов, чтобы пройти милю, теперь можно пройти её за 20.
Задача заключалась в том, чтобы определить, какие ходы следует заменить суперходами. В серии экспериментов исследователи разработали систему, в которой одна модель обучения с подкреплением предлагает новые ходы, а вторая модель проверяет, помогают ли эти ходы.
Они использовали этот подход для прорыва в решении математической задачи, называемой гипотезой Эндрюса-Кертиса, — загадки, которая оставалась нерешенной в течение 60 лет. Это проблема, известная каждому профессиональному математику, говорит Гуков.
(Небольшое замечание только для любителей математики: гипотеза AC утверждает, что определённый способ описания множества, называемого тривиальной группой, может быть преобразован в другое, но эквивалентное описание с помощью определённой последовательности шагов. Большинство математиков считают гипотезу AC ложной, но никто не знает, как это доказать. Сам Гуков признаёт, что это скорее интеллектуальная любопытство, чем практическая проблема, но тем не менее важная проблема для математиков.)
Гуков и его коллеги не решили гипотезу AC, но обнаружили, что контрпример (указывающий на ложность гипотезы), предложенный 40 лет назад, сам по себе был ложным. «Это было одним из основных направлений исследований на протяжении 40 лет», — говорит Гуков. С помощью искусственного интеллекта они показали, что это направление на самом деле является тупиком.
«Исключение возможных контрпримеров — это очень полезное дело, — говорит Бридсон. — Это может закрыть тупики, на исследование которых вы могли бы потратить год своей жизни».
Да, Гуков поставил галочку лишь на одном элементе одной эзотерической головоломки. Но он считает, что этот подход сработает в любом сценарии, где нужно найти длинную последовательность неизвестных ходов, и теперь планирует опробовать его на других задачах.
«Возможно, это приведет к чему-то, что поможет искусственному интеллекту в целом, — говорит он. — Потому что это учит модели обучения с подкреплением выходить за рамки их первоначального обучения. Для меня это, по сути, о нестандартном мышлении — за тысячи километров, на расстоянии мегапарсеков».
3/ Может ли ИИ когда-нибудь дать действительно ценную информацию?
Нестандартное мышление — это именно то, что нужно математикам для решения сложных задач. Часто считается, что математика — это механические, пошаговые процедуры. Но высшая математика — это экспериментальная область, включающая в себя метод проб и ошибок и внезапные озарения.
Связанная статья
Как ИИ может значительно повысить уровень креативности. Читайте далее.
Вот тут-то и пригодятся такие инструменты, как AlphaEvolve. Новейшая модель Google DeepMind просит логическую модель сгенерировать код для решения конкретной математической задачи. Затем вторая модель оценивает предложенные решения, выбирает лучшее и отправляет их обратно логической модели для улучшения. После сотен проб и ошибок AlphaEvolve смогла предложить решения для широкого спектра математических задач, которые оказались лучше всего, что когда-либо было придумано людьми. Но она также может работать как инструмент для совместной работы: на любом этапе люди могут делиться своими идеями с логической моделью, давая ей конкретные указания.
Подобные исследования являются ключом к изучению высшей математики. «Я часто ищу интересные явления и направляю себя в определенное русло», — говорит Джорди Уильямсон, математик из Сиднейского университета в Австралии. «Например: „Давайте заглянем в этот маленький переулок. О, я что-то нашел!“»
Уильямсон работал с компанией Meta над инструментом искусственного интеллекта под названием PatternBoost, разработанным для поддержки такого рода исследований. PatternBoost может взять математическую идею или утверждение и сгенерировать похожие. «Это как: „Вот куча интересных вещей. Я не знаю, что происходит, но можете ли вы создать еще более интересные вещи, похожие на это?“» — говорит он.
Подобный мозговой штурм — важная работа в математике. Именно так рождаются новые идеи. Возьмем, к примеру, икосаэдр, говорит Уильямсон: «Это прекрасный пример, к которому я постоянно возвращаюсь в своей работе». Икосаэдр — это 20-гранный трехмерный объект, все грани которого представляют собой треугольники (представьте себе 20-гранную игральную кость). Икосаэдр — самый большой из семейства, насчитывающего ровно пять таких объектов: тетраэдр (четыре грани), куб (шесть граней), октаэдр (восемь граней) и додекаэдр (12 граней).
Примечательно, что тот факт, что таких объектов существует ровно пять, был доказан математиками в Древней Греции. «В то время, когда была доказана эта теорема, икосаэдра не существовало», — говорит Уильямсон. «Вы не можете найти его в каменоломне — кто-то нашел его в своем воображении. И икосаэдр оказал глубокое влияние на математику. Он продолжает влиять на нас и сегодня очень, очень глубоким образом».
Для Уильямсона захватывающий потенциал таких инструментов, как PatternBoost, заключается в том, что они могут помочь людям открыть будущие математические объекты, подобные икосаэдру, которые в дальнейшем изменят методы математических вычислений. Но мы еще не достигли этого. «Искусственный интеллект может внести значимый вклад в решение исследовательских задач, — говорит он. — Но на данном этапе нас, безусловно, не заваливают новыми теоремами».
В конечном итоге, все сводится к тому, что машинам по-прежнему не хватает того, что можно назвать интуицией или творческим мышлением. Уильямсон总结道: «Сейчас у нас есть ИИ, который может обыграть человека, если знает правила игры. Но одно дело, когда компьютер играет в го на сверхчеловеческом уровне, и совсем другое, когда компьютер изобретает игру в го».
«Я думаю, это применимо и к высшей математике, — говорит он. — Прорывы происходят благодаря новому способу мышления о чем-либо, что сродни открытию совершенно новых ходов в игре. И я не думаю, что мы действительно понимаем, откуда берутся эти по-настоящему блестящие ходы в глубокой математике».
Возможно, инструменты искусственного интеллекта, такие как AlphaEvolve и PatternBoost, лучше всего рассматривать как своего рода «продвинутых разведчиков» человеческой интуиции. Они могут открывать новые направления и указывать на тупики, экономя математикам месяцы или годы работы. Но настоящие прорывы по-прежнему будут исходить из умов людей, как это было на протяжении тысячелетий.
По крайней мере, пока что. «Многие технологические компании говорят нам, что это ненадолго», — говорит Уильямсон. «Но знаете что — посмотрим».
Источник: www.technologyreview.com



























