Ведущие математики мира были поражены тем, насколько искусно искусственный интеллект справляется со своей работой

В выходные в середине мая состоялся тайный математический конклав. Тридцать самых известных математиков мира приехали в Беркли, штат Калифорния, причем некоторые из них приехали даже из Великобритании. Участники группы встретились лицом к лицу с чат-ботом «reasoning», которому было поручено решать задачи, которые они разработали для проверьте его математические способности. После того, как в течение двух дней исследователи задавали боту вопросы профессорского уровня, они были ошеломлены, обнаружив, что он способен ответить на некоторые из самых сложных в мире разрешимых проблем. «У меня есть коллеги, которые буквально сказали, что эти модели приближаются к математическому гению», — говорит Кен Оно, математик из Университета Вирджинии, руководитель и судья конференции.
Чат-бот, о котором идет речь, работает на базе o4-mini, так называемой модели большого языка рассуждений (LLM). OpenAI обучил его делать весьма сложные умозаключения. Аналог Google, Gemini 2.5 Flash, обладает аналогичными способностями. Как и LLM, которые использовались в более ранних версиях ChatGPT, o4-mini учится предсказывать следующее слово в последовательности. Однако по сравнению с более ранними моделями LLM, o4-mini и его аналоги являются более легкими и гибкими моделями, которые обучаются на специализированных наборах данных при более активном участии людей. Такой подход приводит к созданию чат-бота, способного гораздо глубже разбираться в сложных математических задачах, чем традиционные программы LLM.
Отслеживать прогресс o4-mini OpenAI ранее поручила Epoch AI, некоммерческой организации, которая занимается тестированием программ LLM., чтобы придумать 300 математических вопросов, решения которых еще не были опубликованы. Даже обычные магистры могут правильно ответить на многие сложные математические вопросы. Однако, когда Epoch AI задал нескольким таким моделям эти вопросы, которые отличались от тех, которым они обучались, наиболее успешные из них смогли решить менее 2%, что свидетельствует о том, что этим магистрам не хватало способности рассуждать. Но o4-mini оказался бы совсем другим.
О поддержке научной журналистики
Если вам понравилась эта статья, подумайте о том, чтобы поддержать нашу журналистику, отмеченную наградами, подписавшись на нее. Приобретая подписку, вы помогаете обеспечить будущее впечатляющих историй об открытиях и идеях, формирующих наш современный мир.
Компания Epoch AI наняла Эллиота Глейзера, который недавно защитил докторскую диссертацию по математике, для участия в новой коллаборации для бенчмарка, получившей название FrontierMath, в сентябре 2024 года. В рамках проекта были собраны новые вопросы различного уровня сложности, причем первые три уровня охватывали задачи для студентов, аспирантов и научных работников. К февралю 2025 года Глейзер обнаружил, что o4-mini может решить около 20 процентов вопросов. Затем он перешел к четвертому уровню: 100 вопросам, которые были бы сложными даже для академического математика. Только небольшая группа людей в мире была бы способна разработать такие вопросы, не говоря уже о том, чтобы ответить на них. Участвовавшие в нем математики должны были подписать соглашение о неразглашении, обязывающее их общаться исключительно через приложение для обмена сообщениями Signal. Другие формы контактов, такие как традиционная электронная почта, потенциально могут быть просмотрены магистром права и непреднамеренно обработаны им, что приведет к загрязнению набора данных.
Группа медленно, но верно продвигалась в поиске вопросов. Но Глейзер хотел ускорить процесс, поэтому Epoch AI организовала очные встречи в субботу, 17 мая, и воскресенье, 18 мая. На них участники должны были доработать заключительный блок контрольных вопросов. Оно разделило 30 участников на группы по шесть человек. В течение двух дней ученые соревновались между собой, придумывая задачи, которые они могли бы решить, но которые ставили бы в тупик мыслящего робота с искусственным интеллектом. За каждую задачу, которую не смог решить o4-mini, математик, предложивший ее, получал вознаграждение в размере 7500 долларов.
К концу субботнего вечера Оно был разочарован ботом, чьи неожиданные математические способности мешали прогрессу группы. «Я столкнулся с проблемой, которую эксперты в моей области сочли бы открытым вопросом в теории чисел — хорошей проблемой для уровня доктора философии», — говорит он. Он попросил o4-mini решить этот вопрос. В течение следующих 10 минут Оно в ошеломленном молчании наблюдала, как бот в режиме реального времени предлагает решение, попутно демонстрируя ход своих рассуждений. Первые две минуты бот потратил на поиск и изучение соответствующей литературы по данной области. Затем он написал на экране, что хочет сначала попробовать решить более простую «игрушечную» версию вопроса, чтобы научиться. Через несколько минут он написал, что, наконец, готов решить более сложную задачу. Через пять минут после этого o4-mini представила правильное, но дерзкое решение. «Это начинало становиться по-настоящему дерзким», — говорит Оно, который также является внештатным математическим консультантом Epoch AI. «И в конце говорится: «Цитировать не нужно, потому что загадочное число было вычислено мной!’’
Потерпев поражение, Оно включила сигнал рано утром в воскресенье и предупредила остальных участников. «Я не был готов к тому, что мне придется иметь дело с таким магистром, — говорит он, — я никогда раньше не видел такого рода рассуждений в моделях. Это то, что делает ученый. Это пугает.»
Хотя группе в конечном итоге удалось найти 10 вопросов, которые поставили бота в тупик, исследователи были поражены тем, как далеко продвинулся ИИ за один день. год. Оно сравнил это с работой с «сильным сотрудником». Ян Хуэй Хе, математик из Лондонского института математических наук и один из первых, кто начал использовать искусственный интеллект в математике, говорит: «Это то, чем мог бы заниматься очень, очень хороший аспирант».на самом деле, даже больше.”
Кроме того, бот был намного быстрее профессионального математика, за считанные минуты выполнив то, на что у человека-эксперта ушли бы недели или месяцы.
Хотя спарринг с o4-mini был захватывающим, его прогресс также вызывал тревогу. Они с Оно выражают обеспокоенность тем, что результатам o4-mini можно слишком доверять. «Есть доказательство путем индукции, доказательство от противного, а затем доказательство путем запугивания», — говорит он. «Если вы говорите что-то достаточно авторитетно, люди просто пугаются. Я думаю, что o4-mini освоила доказательство с помощью запугивания; она говорит обо всем с такой уверенностью».
К концу встречи группа начала размышлять о том, как может выглядеть будущее для математиков. Дискуссии перешли к неизбежным вопросам «пятого уровня», которые не могут решить даже лучшие математики. Если ИИ достигнет этого уровня, роль математиков резко изменится. Например, математики могут перейти к простой постановке вопросов и взаимодействию с логическими роботами, которые помогут им открывать новые математические истины, во многом так же, как профессор работает с аспирантами. Таким образом, Оно предсказывает, что развитие креативности в системе высшего образования станет ключом к сохранению математики для будущих поколений.
«Я говорил своим коллегам, что было бы серьезной ошибкой утверждать, что всеобщий искусственный интеллект никогда не появится, [что] это просто компьютер», — говорит Оно. «Я не хочу нагнетать истерию, но во многих отношениях эти крупные языковые модели уже превосходят большинство наших лучших аспирантов в мире».



























