Ученые из Массачусетского технологического института создали крупнейшую в мире коллекцию математических задач олимпиадного уровня и открыли к ней доступ для всех желающих.
Новый набор данных, содержащий более 30 000 задач по математике из 47 стран, представляет собой более сложную задачу для исследователей в области искусственного интеллекта, а также лучшую площадку для обучения студентов по всему миру.
MathNet — это крупнейший в мире высококачественный набор данных математических задач, основанных на доказательствах. Он включает более 30 000 задач и решений, составленных экспертами, из 47 стран, 17 языков и 143 соревнований. Автор: Шаден Альшаммари
Каждый год страны, участвующие в Международной математической олимпиаде (ИМО), приезжают с буклетом, содержащим их лучшие и наиболее оригинальные задачи. Эти буклеты передаются между делегациями, а затем незаметно исчезают. Никто никогда не собирал их систематически, не чистил и не делал доступными ни для исследователей в области искусственного интеллекта, проверяющих пределы математического мышления, ни для студентов по всему миру, которые готовятся к этим соревнованиям в основном самостоятельно.
Исследователи из Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института (CSAIL), Университета науки и технологий имени короля Абдаллы (KAUST) и компании HUMAIN сделали именно это.
MathNet — это крупнейший из когда-либо созданных высококачественных наборов данных математических задач, основанных на доказательствах. Он включает более 30 000 задач и решений, составленных экспертами, из 47 стран, 17 языков и 143 соревнований, что в пять раз больше, чем у следующего по величине набора данных подобного рода. Результаты работы будут представлены на Международной конференции по изучению представлений (ICLR) в Бразилии в конце этого месяца.
MathNet отличается не только своим размером, но и широтой охвата. Предыдущие наборы данных олимпиадного уровня почти исключительно состояли из результатов соревнований в США и Китае. MathNet охватывает десятки стран на шести континентах, 17 языков, включает как текстовые, так и графические задачи и решения, а также охватывает четыре десятилетия соревнований по математике. Цель состоит в том, чтобы охватить весь спектр математических взглядов и традиций решения задач, существующих в мировом математическом сообществе, а не только самые известные из них.
«Каждая страна приносит с собой брошюру со своими самыми оригинальными и креативными проблемами, — говорит Шаден Альшаммари, аспирант Массачусетского технологического института и ведущий автор статьи. — Они обмениваются этими брошюрами друг с другом, но никто не удосужился собрать их, привести в порядок и выложить в интернет».
Для создания MathNet потребовалось отыскать 1595 PDF-томов общим объемом более 25 000 страниц, включающих цифровые документы и отсканированные копии многолетней давности на более чем десятке языков. Значительная часть этого архива поступила из неожиданного источника: от Навида Сафаи, давнего участника сообщества IMO и соавтора, который собирал и сканировал эти брошюры вручную с 2006 года. Его личный архив составил основу набора данных.
Источники данных имеют такое же значение, как и масштаб. В то время как большинство существующих математических наборов данных берут задачи с форумов сообщества, таких как Art of Problem Solving (AoPS), MathNet использует исключительно официальные сборники задач национальных конкурсов. Решения в этих сборниках написаны экспертами и прошли рецензирование, и часто занимают несколько страниц, где авторы рассматривают несколько подходов к одной и той же задаче. Такая глубина дает моделям ИИ гораздо более богатый сигнал для обучения математическому мышлению, чем более короткие, неформальные решения, типичные для наборов данных, созданных сообществом. Это также означает, что набор данных действительно полезен для студентов: любой, кто готовится к Международной математической олимпиаде или национальному конкурсу, теперь имеет доступ к централизованной, доступной для поиска коллекции высококачественных задач и решений из различных мировых традиций.
«Я помню так много студентов, для которых это была индивидуальная работа. Никто в их стране не готовил их к подобным соревнованиям», — говорит Альшаммари, которая сама участвовала в ИМО в студенческие годы. «Мы надеемся, что это даст им централизованное место с высококачественными проблемами и решениями, на основе которых они смогут учиться».
Команда имеет глубокие корни в сообществе ИМО. Султан Альбаракати, один из соавторов, в настоящее время входит в состав правления ИМО, и исследователи работают над тем, чтобы напрямую поделиться набором данных с фондом ИМО. Для проверки набора данных они собрали группу из более чем 30 экспертов-оценщиков из таких стран, как Армения, Россия, Украина, Вьетнам и Польша, которые скоординировали свои действия для проверки тысяч решений.
«База данных MathNet потенциально может стать отличным ресурсом как для студентов, так и для руководителей, ищущих новые задачи для работы или решения сложных вопросов», — говорит Таниш Патил, заместитель руководителя Швейцарской ИМО. «Хотя существуют и другие архивы олимпиадных задач (в частности, форумы Contest Collections на AoPS), этим ресурсам не хватает стандартизированной системы форматирования, проверенных решений и важных метаданных задач, необходимых для понимания тем и теории. Также будет интересно посмотреть, как этот набор данных будет использоваться для повышения эффективности моделей рассуждений, и сможем ли мы в скором времени надежно ответить на важный вопрос при создании новых олимпиадных задач: определить, действительно ли задача оригинальна».
MathNet также служит строгим эталоном для оценки производительности ИИ, и результаты показывают более сложную картину, чем могут показаться недавние заголовки о математических способностях ИИ. Передовые модели добились необычайного прогресса: некоторые, как сообщается, достигли результатов уровня золотой медали на Международной математической олимпиаде (IMO), а на стандартных тестах они теперь решают задачи, которые поставили бы в тупик большинство людей. Но MathNet показывает, что прогресс неравномерен. Даже GPT-5, лучшая из протестированных моделей, в среднем показала около 69,3% на основном тесте MathNet, состоящем из 6400 задач, не справившись почти с каждой третьей задачей олимпиадного уровня. А когда задачи включают в себя фигуры, производительность значительно падает по всем параметрам, что выявляет визуальное мышление как постоянное слабое место даже для самых способных моделей.
Некоторые модели с открытым исходным кодом показали нулевой результат в задачах на монгольском языке, что подчеркивает еще один аспект, в котором современные системы ИИ терпят неудачу, несмотря на свои общие преимущества.
«Модели GPT одинаково хорошо работают как на английском, так и на других языках, — говорит Альшаммари. — Но многие модели с открытым исходным кодом полностью терпят неудачу на менее распространенных языках, таких как монгольский».
Разнообразие MathNet также призвано устранить более глубокое ограничение в том, как модели ИИ изучают математику. Когда обучающие данные в основном состоят из задач на английском и китайском языках, модели усваивают узкий срез математической культуры. Румынская задача комбинаторики или бразильская задача теории чисел могут рассматривать одну и ту же базовую концепцию с совершенно разных точек зрения. По мнению исследователей, знакомство с таким разнообразием делает как людей, так и системы ИИ лучшими математическими мыслителями.
Помимо решения задач, MathNet вводит критерий поиска, который проверяет, могут ли модели распознавать задачи, имеющие одинаковую базовую математическую структуру. Эта способность важна как для разработки ИИ, так и для самого математического сообщества. На протяжении многих лет на реальных экзаменах IMO встречались задачи, близкие по структуре, поскольку поиск математических эквивалентов в разных обозначениях, языках и форматах действительно сложен, даже для экспертных комиссий. Протестировав восемь современных моделей встраивания, исследователи обнаружили, что даже самые сильные из них определяли правильное совпадение лишь примерно в 5% случаев с первой попытки, при этом модели часто оценивали структурно несвязанные задачи как более похожие, чем эквивалентные.
Набор данных также включает в себя бенчмарк генерации с расширенным поиском, проверяющий, улучшает ли производительность модель, если сначала дать ей структурно связанную задачу, а затем попросить решить новую. Да, улучшает, но только если найденная задача действительно релевантна. DeepSeek-V3.2-Speciale показал улучшение до 12 процентных пунктов при хорошо подобранном поиске, в то время как нерелевантный поиск ухудшил производительность примерно в 22 процентах случаев.
Альшаммари написал статью совместно с Сафаеи, инженером HUMAIN AI Абраром Зайналом, директором Академии KAUST Султаном Альбаракати и коллегами из MIT CSAIL: магистрантом Кевином Веном (выпуск 2025 года); главным инженером-менеджером Microsoft Марком Гамильтоном (выпуск 2022 года, доктор философии 2025 года); а также профессорами Уильямом Фрименом и Антонио Торральбой. Их работа частично финансировалась стипендией Schwarzman College of Computing Fellowship и Национальным научным фондом.
MathNet находится в открытом доступе по адресу mathnet.csail.mit.edu.
Источник: news.mit.edu

Добавить комментарий
Для отправки комментария вам необходимо авторизоваться.