Image

На Секретном математическом совещании исследователи изо всех сил пытаются перехитрить искусственный интеллект

Ведущие математики мира были поражены тем, насколько искусно искусственный интеллект справляется со своей работой

Синяя иллюстрация лица с цифрами, подразумевающая математику и искусственный интеллект.

В выходные в середине мая состоялся тайный математический конклав. Тридцать самых известных математиков мира приехали в Беркли, штат Калифорния, причем некоторые из них приехали даже из Великобритании. Участники группы встретились лицом к лицу с чат-ботом «reasoning», которому было поручено решать задачи, которые они разработали для проверьте его математические способности. После того, как в течение двух дней исследователи задавали боту вопросы профессорского уровня, они были ошеломлены, обнаружив, что он способен ответить на некоторые из самых сложных в мире разрешимых проблем. «У меня есть коллеги, которые буквально сказали, что эти модели приближаются к математическому гению», — говорит Кен Оно, математик из Университета Вирджинии, руководитель и судья конференции.

Чат-бот, о котором идет речь, работает на базе o4-mini, так называемой модели большого языка рассуждений (LLM). OpenAI обучил его делать весьма сложные умозаключения. Аналог Google, Gemini 2.5 Flash, обладает аналогичными способностями. Как и LLM, которые использовались в более ранних версиях ChatGPT, o4-mini учится предсказывать следующее слово в последовательности. Однако по сравнению с более ранними моделями LLM, o4-mini и его аналоги являются более легкими и гибкими моделями, которые обучаются на специализированных наборах данных при более активном участии людей. Такой подход приводит к созданию чат-бота, способного гораздо глубже разбираться в сложных математических задачах, чем традиционные программы LLM.

Отслеживать прогресс o4-mini OpenAI ранее поручила Epoch AI, некоммерческой организации, которая занимается тестированием программ LLM., чтобы придумать 300 математических вопросов, решения которых еще не были опубликованы. Даже обычные магистры могут правильно ответить на многие сложные математические вопросы. Однако, когда Epoch AI задал нескольким таким моделям эти вопросы, которые отличались от тех, которым они обучались, наиболее успешные из них смогли решить менее 2%, что свидетельствует о том, что этим магистрам не хватало способности рассуждать. Но o4-mini оказался бы совсем другим.

О поддержке научной журналистики

Если вам понравилась эта статья, подумайте о том, чтобы поддержать нашу журналистику, отмеченную наградами, подписавшись на нее. Приобретая подписку, вы помогаете обеспечить будущее впечатляющих историй об открытиях и идеях, формирующих наш современный мир.

Компания Epoch AI наняла Эллиота Глейзера, который недавно защитил докторскую диссертацию по математике, для участия в новой коллаборации для бенчмарка, получившей название FrontierMath, в сентябре 2024 года. В рамках проекта были собраны новые вопросы различного уровня сложности, причем первые три уровня охватывали задачи для студентов, аспирантов и научных работников. К февралю 2025 года Глейзер обнаружил, что o4-mini может решить около 20 процентов вопросов. Затем он перешел к четвертому уровню: 100 вопросам, которые были бы сложными даже для академического математика. Только небольшая группа людей в мире была бы способна разработать такие вопросы, не говоря уже о том, чтобы ответить на них. Участвовавшие в нем математики должны были подписать соглашение о неразглашении, обязывающее их общаться исключительно через приложение для обмена сообщениями Signal. Другие формы контактов, такие как традиционная электронная почта, потенциально могут быть просмотрены магистром права и непреднамеренно обработаны им, что приведет к загрязнению набора данных.

Группа медленно, но верно продвигалась в поиске вопросов. Но Глейзер хотел ускорить процесс, поэтому Epoch AI организовала очные встречи в субботу, 17 мая, и воскресенье, 18 мая. На них участники должны были доработать заключительный блок контрольных вопросов. Оно разделило 30 участников на группы по шесть человек. В течение двух дней ученые соревновались между собой, придумывая задачи, которые они могли бы решить, но которые ставили бы в тупик мыслящего робота с искусственным интеллектом. За каждую задачу, которую не смог решить o4-mini, математик, предложивший ее, получал вознаграждение в размере 7500 долларов.

К концу субботнего вечера Оно был разочарован ботом, чьи неожиданные математические способности мешали прогрессу группы. «Я столкнулся с проблемой, которую эксперты в моей области сочли бы открытым вопросом в теории чисел — хорошей проблемой для уровня доктора философии», — говорит он. Он попросил o4-mini решить этот вопрос. В течение следующих 10 минут Оно в ошеломленном молчании наблюдала, как бот в режиме реального времени предлагает решение, попутно демонстрируя ход своих рассуждений. Первые две минуты бот потратил на поиск и изучение соответствующей литературы по данной области. Затем он написал на экране, что хочет сначала попробовать решить более простую «игрушечную» версию вопроса, чтобы научиться. Через несколько минут он написал, что, наконец, готов решить более сложную задачу. Через пять минут после этого o4-mini представила правильное, но дерзкое решение. «Это начинало становиться по-настоящему дерзким», — говорит Оно, который также является внештатным математическим консультантом Epoch AI. «И в конце говорится: «Цитировать не нужно, потому что загадочное число было вычислено мной!’’

Потерпев поражение, Оно включила сигнал рано утром в воскресенье и предупредила остальных участников. «Я не был готов к тому, что мне придется иметь дело с таким магистром, — говорит он, — я никогда раньше не видел такого рода рассуждений в моделях. Это то, что делает ученый. Это пугает.»

Хотя группе в конечном итоге удалось найти 10 вопросов, которые поставили бота в тупик, исследователи были поражены тем, как далеко продвинулся ИИ за один день. год. Оно сравнил это с работой с «сильным сотрудником». Ян Хуэй Хе, математик из Лондонского института математических наук и один из первых, кто начал использовать искусственный интеллект в математике, говорит: «Это то, чем мог бы заниматься очень, очень хороший аспирант».на самом деле, даже больше.”

Кроме того, бот был намного быстрее профессионального математика, за считанные минуты выполнив то, на что у человека-эксперта ушли бы недели или месяцы.

Хотя спарринг с o4-mini был захватывающим, его прогресс также вызывал тревогу. Они с Оно выражают обеспокоенность тем, что результатам o4-mini можно слишком доверять. «Есть доказательство путем индукции, доказательство от противного, а затем доказательство путем запугивания», — говорит он. «Если вы говорите что-то достаточно авторитетно, люди просто пугаются. Я думаю, что o4-mini освоила доказательство с помощью запугивания; она говорит обо всем с такой уверенностью».

К концу встречи группа начала размышлять о том, как может выглядеть будущее для математиков. Дискуссии перешли к неизбежным вопросам «пятого уровня», которые не могут решить даже лучшие математики. Если ИИ достигнет этого уровня, роль математиков резко изменится. Например, математики могут перейти к простой постановке вопросов и взаимодействию с логическими роботами, которые помогут им открывать новые математические истины, во многом так же, как профессор работает с аспирантами. Таким образом, Оно предсказывает, что развитие креативности в системе высшего образования станет ключом к сохранению математики для будущих поколений.

«Я говорил своим коллегам, что было бы серьезной ошибкой утверждать, что всеобщий искусственный интеллект никогда не появится, [что] это просто компьютер», — говорит Оно. «Я не хочу нагнетать истерию, но во многих отношениях эти крупные языковые модели уже превосходят большинство наших лучших аспирантов в мире».

❌ Нет тегов для этой статьи
Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Фото сгенерированных лиц: исследование показывает, что люди не могут отличить настоящие лица от сгенерированных
Нейросети построили капитализм за трое суток: 100 агентов Claude заперли…
Скетч: цифровой осьминог и виртуальный мир внутри компьютера с человечком.
Сцена с жестами пальцами, где один жест символизирует "VPN", а другой "KHP".
‼️Paramount купила Warner Bros. Discovery — сумма сделки составила безумные…
Скриншот репозитория GitHub "Claude Scientific Skills" AI для научных исследований.
Структура эффективного запроса Claude с элементами задачи, контекста и референса.
Эскиз и готовая веб-страница платформы для AI-дизайна в современном темном режиме.
ideipro logotyp
Image Not Found
Звёздное небо с галактиками и туманностями, космос, Вселенная, астрофотография.

Система оповещения обсерватории Рубина отправила 800 000 сигналов в первую ночь наблюдений.

Астрономы будут получать оповещения о небесных явлениях в течение нескольких минут после их обнаружения. Теренс О'Брайен, редактор раздела «Выходные». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной…

Мар 2, 2026
Женщина с длинными тёмными волосами в синем свете, нейтральный фон.

Расследование в отношении 61-фунтовой машины, которая «пожирает» пластик и выплевывает кирпичи.

Обзор компактного пресса для мягкого пластика Clear Drop — и что будет дальше. Шон Холлистер, старший редактор Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего…

Мар 2, 2026
Черный углеродное волокно с текстурой плетения, отражающий свет.

Материал будущего: как работает «бессмертный» композит

Учёные из Университета штата Северная Каролина представили композит нового поколения, способный самостоятельно восстанавливаться после серьёзных повреждений.  Речь идёт о модифицированном армированном волокном полимере (FRP), который не просто сохраняет прочность при малом весе, но и способен «залечивать» внутренние…

Мар 2, 2026
Круглый экран с изображением замка и горы, рядом электронная плата.

Круглый дисплей Waveshare для креативных проектов

Круглый 7-дюймовый сенсорный дисплей от Waveshare создан для разработчиков и дизайнеров, которым нужен нестандартный экран.  Это IPS-панель с разрешением 1 080×1 080 пикселей, поддержкой 10-точечного ёмкостного сенсора, оптической склейкой и защитным закалённым стеклом, выполненная в круглом форм-факторе.…

Мар 2, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых