Инструмент Paper Assistant, разработанный при поддержке Gemini, обеспечивает автоматизированную обратную связь для специалистов в области теоретической информатики на конференции STOC 2026.
Обновление • 18 мая 2026 г.
В эту запись внесены изменения, добавлено новое название системы: Paper Assistant Tool.
Мы описываем новый инструмент Paper Assistant Tool, который использует Gemini для того, чтобы помочь ученым тщательно проверять правильность представленных на конференцию статей. Этот инструмент был протестирован для конференции STOC 2026.
Быстрые ссылки
- экспериментальная программа STOC
- Примеры обратной связи STOC
- Экспериментальная программа ICML
- Экспериментальная программа NeurIPS
- Делиться
В теоретической информатике и математике поиск истины опирается на высочайшие стандарты доказательств, строгости и ясности. Хотя рецензирование является решающей заключительной проверкой, процесс составления и уточнения сложных теоретических работ часто занимает месяцы, а простые ошибки, несогласованные переменные или незначительные логические пробелы нередко замедляют весь исследовательский процесс. Но может ли высокоспециализированный инструмент искусственного интеллекта выступать в качестве быстрого и строгого помощника, помогая авторам предварительно проверять свои работы до того, как они попадут к рецензентам?
Чтобы проверить этот потенциал, мы создали экспериментальную программу для ежегодного симпозиума ACM по теории вычислений (STOC 2026) — одного из самых престижных мероприятий в области теоретической информатики. Эта программа предлагала авторам автоматизированную обратную связь до подачи статьи, генерируемую специализированным инструментом Gemini AI, теперь известным как Paper Assistant Tool (PAT). Наша цель состояла в том, чтобы предоставлять конструктивные предложения и выявлять потенциальные технические проблемы в течение 24 часов после подачи статьи, помогая авторам доработать окончательные версии до крайнего срока подачи.
Отзывы были очень положительными: PAT успешно выявил ряд проблем, включая ошибки в вычислениях и логике. Здесь мы расскажем о том, как мы разработали этот инструмент и о результатах его использования.
Оптимизировано для обеспечения математической строгости.
Инструмент обратной связи использовал методы масштабирования выводов в усовершенствованной версии Gemini 2.5 Deep Think. Такая настройка позволяет PAT одновременно исследовать и комбинировать несколько возможных решений, прежде чем дать окончательный ответ, вместо того чтобы следовать одной линейной цепочке рассуждений. Комбинируя различные пути рассуждений и оценки, метод уменьшает присущие ему иллюзии и фокусируется на наиболее важных проблемах.
Формат обратной связи
Авторы получали структурированную обратную связь, разделенную на ключевые разделы: краткое изложение вклада статьи, список потенциальных ошибок и предложений по улучшению (часто с анализом конкретных лемм или теорем), а также список мелких исправлений и опечаток. См. примеры отзывов.
Влияние и техническая глубина
PAT успешно выявил широкий спектр проблем, от несогласованных имен переменных до сложных задач, таких как ошибки вычислений, неправильное применение неравенств и логические пробелы в доказательствах. Как отметил один из авторов, инструмент обнаружил «критическую ошибку… которая сделала наше доказательство совершенно неверным», добавив, что это была «до смешного простая ошибка, которая ускользала от нас в течение нескольких месяцев».
В опросе, проведенном после эксперимента, приняли участие более 100 человек, и отзывы были очень позитивными: респонденты отметили успешность модели в выявлении критических ошибок и ее способность давать содержательные комментарии. Из тех, кто дал согласие на публикацию своих отзывов:
- Более 80% представленных на момент окончания нашего эксперимента статей дали согласие на рецензирование с помощью ИИ.
- 97% сочли отзывы полезными.
- 97% пользователей воспользуются этим инструментом снова для отправки своих работ в будущем.
- 81% опрошенных отметили, что метод PAT улучшил ясность или читабельность текста.
Пользовательский опыт
Помимо технической точности, авторы высоко оценили скорость и нейтральность проверки, проведенной искусственным интеллектом. Участники отметили получение обратной связи всего за два дня. Другие похвалили «нейтральный тон и строгость» результатов, посчитав их полезным дополнением к проверке людьми.
Интерпретация результатов работы PAT
Поскольку участники являются экспертами в своих областях, они смогли легко отличить полезные выводы от случайных «галлюцинаций». Хотя модель иногда испытывала трудности — особенно с разбором сложных обозначений или интерпретацией рисунков — авторы не отвергали результаты работы LLM. Напротив, они тщательно отфильтровали шум и выделили важные и правильные части результатов, а затем использовали обратную связь в качестве отправной точки для проверки. Этот результат наглядно демонстрирует потенциал ИИ в качестве партнера по сотрудничеству, дополняя исследовательский процесс, помогая экспертам принимать обоснованные решения на основе строгих результатов модели.
Влияние образования и перспективы на будущее
В ходе этого эксперимента исследовательское сообщество, участвовавшее в опросе, увидело значительный потенциал этого инструмента в обучении следующего поколения. 75% опрошенных авторов считают, что PAT имеет образовательную ценность для студентов, предоставляя немедленную обратную связь относительно математической строгости и ясности изложения.
Этот пилотный проект продемонстрировал потенциал специализированных инструментов ИИ в качестве партнеров по сотрудничеству в фундаментальных областях, определив целевую аудиторию для потенциальных будущих исследовательских инициатив. Наша общая цель состоит не в замене процесса критической экспертной оценки, а в его расширении и улучшении. В подтверждение этому, 88% участников выразили сильную заинтересованность в постоянном доступе к такому инструменту на протяжении всего исследовательского процесса.
Благодарности
Винсент Коэн-Аддад, Раджеш Джаярам, Джон Шнайдер и Дэвид Вудрафф совместно руководили проектом Paper Assistant Tool, при этом ключевые вклады внесли Лалит Джайн, Цземинг Мао и Вахаб Миррокни. Мы также благодарим председателя ПК STOC 2026 Артура Чумая и многих других авторов, которые участвовали в этом эксперименте и предоставили свои ценные отзывы, полезные предложения и обсуждения, в том числе Мохаммада Таги Хаджиагайи, Рави Кумара, Йоси Матиаса и Сергея Васильвицкого. Наконец, эта работа основана на усилиях команды Deep Think: Гаррет Бингхэм, Ирен Цай, Хенг-Цзе Ченг, Йонг Ченг, Кристен Чиафулло, Винсент Коэн-Аддад, Пол Ковингтон, Гольназ Гиаси, Ченджи Гу, Хуан Гуй, Ана Хоссейни, Доусен Хван, Лалит Джайн, Вихан Джайн, Рага Котикалапуди, Ченкай. Куанг, Ченкай Куанг, Мацей Кула, Нейт Кушман, Джейн Лабановски, Куок Ле, Джонатан Ли, Чжаоци Ленг, Стив Ли, ЯГуан Ли, Ханжао (Мэгги) Лин, Эван Лю, Юань Лю, Тхан Луонг, Цзиеминг Мао, Вахаб Миррокни, Пол Морено, Нигамаа Наяканти, Аруналок Пайн, Шубха Рагвендра, Сашанк Редди, Никундж Саунши, Сиамак Шакери, Арчит Шарма, Синьин Сун, Циджун Тан, И Тай, Триу Тринь, Теофан Вебер, Винни Сюй, Цзычэн Сюй, Шунюй Яо, Лицзюнь Юй, Хао Чжоу, Хунлей Чжуан и Сун Цзо.
Источник: research.google

Добавить комментарий
Для отправки комментария вам необходимо авторизоваться.