Эпоха, когда сначала шумиха, а потом размышления.

Демис Хассабис, генеральный директор Google DeepMind, выразил суть проблемы тремя словами: «Это позор».
Хассабис отвечал в X на чрезмерно восторженный пост Себастьяна Бубека, научного сотрудника конкурирующей компании OpenAI, в котором тот объявил, что два математика использовали новейшую большую языковую модель OpenAI, GPT-5, для решения 10 нерешенных математических задач. «Ускорение науки с помощью ИИ официально началось», — хвастался Бубек.
Давайте на минутку включим математику и разберемся, в чем заключался конфликт середины октября. Это прекрасный пример того, что сейчас не так с искусственным интеллектом.
Бубек был рад, что GPT-5, похоже, каким-то образом решил ряд загадок, известных как проблемы Эрдоша.
Поль Эрдош, один из самых плодовитых математиков XX века, оставил после себя сотни головоломок. Чтобы отслеживать, какие из них были решены, Томас Блум, математик из Манчестерского университета (Великобритания), создал сайт erdosproblems.com, на котором перечислено более 1100 задач, и отмечается, что около 430 из них имеют решения.
Когда Бубек отпраздновал открытие GPT-5, Блум быстро его разоблачил. «Это вопиющее искажение фактов», — написал он на X. Блум объяснил, что проблема не обязательно не решена, если на этом сайте нет решения. Это просто означает, что Блум не знал о его существовании. Существуют миллионы научных работ по математике, и никто не читал их все. Но GPT-5, вероятно, читал.
Оказалось, что вместо того, чтобы предложить новые решения для 10 нерешенных проблем, GPT-5 прочесал интернет в поисках 10 уже существующих решений, которые Блум раньше не видел. Вот незадача!
Из всего этого можно сделать два вывода. Во-первых, не стоит делать в социальных сетях поспешных заявлений о крупных открытиях: нужно меньше импульсивных реакций и больше — проверки интуиции.
Во-вторых, способность GPT-5 находить отсылки к предыдущим работам, о которых Блум не знал, тоже поразительна. Ажиотаж затмил то, что само по себе должно было быть довольно крутым.
Математики проявляют большой интерес к использованию линейных моделей обучения для анализа огромного количества существующих результатов, — рассказал мне Франсуа Шартон, научный сотрудник стартапа Axiom Math, занимающегося изучением применения линейных моделей обучения в математике, когда я обсуждал с ним этот нюанс, связанный с работами Эрдоша.
Но поиск литературы — это скучное занятие по сравнению с настоящим открытием, особенно для ярых сторонников ИИ в социальных сетях. Ошибка Бубека — не единственный тому пример.
В августе пара математиков показала, что ни один из тогдашних магистров права не мог решить математическую задачу, известную как 554-я задача Ю Цумуры. Два месяца спустя социальные сети взорвались сообщениями о том, что GPT-5 теперь может это сделать. «Для многих наступает момент Ли Седоля», — прокомментировал один из наблюдателей, имея в виду мастера игры в го, проигравшего ИИ AlphaGo от DeepMind в 2016 году.
Однако Шартон отметил, что решение 554-й задачи Ю Цумуры не представляет собой большой проблемы для математиков. «Это вопрос, который вы бы задали студенту», — сказал он. «Существует тенденция переусердствовать во всем».
Тем временем появляются более трезвые оценки того, в чём могут быть хороши или не хороши LLM-ы. В то же время, когда математики спорили в интернете о GPT-5, вышли два новых исследования, которые подробно рассматривали использование LLM-ов в медицине и юриспруденции (двух областях, в которых, по утверждению разработчиков моделей, их технологии преуспевают).
Связанная статья
Исследователи обнаружили, что юристы-практики могут ставить определенные медицинские диагнозы, но их рекомендации по лечению не всегда верны. Что касается юриспруденции, исследователи выяснили, что юристы-практики часто дают противоречивые и неверные советы. «Доказанные на данный момент доказательства совершенно не соответствуют требованиям», — заключили авторы.
Но на X такое сообщение воспринимается не очень хорошо. «Эта атмосфера ажиотажа создается благодаря тому, что все активно общаются — никто не хочет отставать», — сказал Чартон. Именно на X впервые появляются новости об ИИ, именно здесь объявляются о новых результатах, и именно здесь ключевые игроки, такие как Сэм Альтман, Ян Лекун и Гэри Маркус, публично выясняют отношения. За всем этим сложно уследить — и еще сложнее отвести взгляд.
Пост Бубека стал неловким только потому, что его ошибку заметили. Не все ошибки замечают. Пока ничего не изменится, исследователи, инвесторы и некие некие спонсоры будут продолжать подставлять друг друга. «Некоторые из них — ученые, многие — нет, но все они — зануды», — сказал мне Чартон. «Громкие заявления очень хорошо работают в этих сетях».
*****
И вот заключение! Всё вышесказанное я написал для колонки «Алгоритмы» в январско-февральском номере журнала MIT Technology Review за 2026 год (он скоро выйдет). Через два дня после выхода номера в печать компания Axiom сообщила мне, что её собственная математическая модель AxiomProver решила две открытые задачи Эрдоша (№ 124 и № 481, для любителей математики). Это впечатляющие результаты для небольшого стартапа, основанного всего несколько месяцев назад. Да, искусственный интеллект развивается быстро!
Но это еще не все. Пять дней спустя компания объявила, что AxiomProver решила девять из двенадцати задач в конкурсе имени Патнэма этого года — математической задаче университетского уровня, которую некоторые считают сложнее, чем более известная Международная математическая олимпиада (которую несколько месяцев назад блестяще решили студенты магистратуры из Google DeepMind и OpenAI).
Результаты конкурса имени Патнэма были высоко оценены на X известными специалистами в этой области, включая Джеффа Дина, главного научного сотрудника Google DeepMind, и Томаса Вольфа, соучредителя компании Hugging Face, занимающейся разработкой ИИ. В ответах вновь развернулись знакомые дискуссии. Несколько исследователей отметили, что, хотя Международная математическая олимпиада требует более творческого подхода к решению задач, конкурс имени Патнэма проверяет математические знания, что делает его чрезвычайно сложным для студентов бакалавриата, но теоретически более простым для магистров права, освоивших интернет.
Как следует оценивать достижения Axiom? По крайней мере, не в социальных сетях. И впечатляющие победы в конкурсах — это только отправная точка. Чтобы определить, насколько хорошо LLM-модели разбираются в математике, потребуется более глубокое изучение того, что именно делают эти модели, когда решают сложные (читай: сложные для человека) математические задачи.
Эта статья первоначально появилась в The Algorithm, нашей еженедельной рассылке об искусственном интеллекте. Чтобы первыми получать подобные статьи на свою электронную почту, подпишитесь здесь.
Источник: www.technologyreview.com



























