Архив рубрики ~Лента новостей~

Представляем GPT-5.2 | OpenAI

Представляем GPT-5.2 | OpenAI

Самая передовая модель для профессиональной работы и агентов, работающих длительное время.

Представляем GPT-5.2 — самую функциональную серию моделей для профессиональной работы с интеллектуальными ресурсами.

Уже сейчас средний пользователь ChatGPT Enterprise говорит , что ИИ экономит ему 40–60 минут в день, а активные пользователи утверждают, что экономят более 10 часов в неделю. Мы разработали GPT-5.2, чтобы раскрыть еще большую экономическую выгоду для людей; он лучше справляется с созданием электронных таблиц, подготовкой презентаций, написанием кода, распознаванием изображений, пониманием длинных контекстов, использованием инструментов и обработкой сложных многоэтапных проектов.

GPT-5.2 устанавливает новый стандарт по многим показателям, включая GDPval, где он превосходит отраслевых специалистов в решении четко определенных задач интеллектуального труда, охватывающих 44 профессии.

GPT-5.2 Мышление

GPT-5.1 Мышление

ВВПval (победы или ничьи)
Задачи, требующие интеллектуального труда

70,9%

38,8% (ГПТ-5)

SWE-Bench Pro (общедоступный)
Программная инженерия

55,6%

50,8%

Проверено с помощью SWE-bench
Программная инженерия

80,0%

76,3%

GPQA Diamond (без инструментов)
Научные вопросы

92,4%

88,1%

Рассуждения на CharXiv (с использованием Python)
Вопросы, касающиеся научных иллюстраций

88,7%

80,3%

AIME 2025 (без инструментов)
Математические соревнования

100.0%

94,0%

FrontierMath (Уровни 1–3)
Высшая математика

40,3%

31,0%

FrontierMath (Уровень 4)
Высшая математика

14,6%

12,5%

ARC-AGI-1 (проверено)
Абстрактное рассуждение

86,2%

72,8%

ARC-AGI-2 (проверено)
Абстрактное рассуждение

52,9%

17,6%

Notion (открывается в новом окне) , Box (открывается в новом окне) , Shopify (открывается в новом окне) , Harvey (открывается в новом окне) и Zoom (открывается в новом окне) отметили, что GPT-5.2 демонстрирует передовые возможности анализа долгосрочных горизонтов и вызова инструментов. Databricks (открывается в новом окне) , Hex (открывается в новом окне) и Компания Triple Whale (открывается в новом окне) признала GPT-5.2 исключительно эффективным в задачах агентного анализа данных и анализа документов. Компании Cognition (открывается в новом окне) , Warp (открывается в новом окне) , Charlie Labs (открывается в новом окне) , JetBrains (открывается в новом окне) и Augment Code (открывается в новом окне) утверждают, что GPT-5.2 обеспечивает передовые показатели производительности агентного программирования, с измеримыми улучшениями в таких областях, как интерактивное программирование, проверка кода и поиск ошибок.

В ChatGPT сегодня начнется внедрение GPT-5.2 Instant, Thinking и Pro, начиная с платных тарифных планов. В API они уже доступны всем разработчикам.

В целом, GPT-5.2 демонстрирует значительные улучшения в общем интеллекте, понимании долговременного контекста, вызове инструментов агентами и машинном зрении, что делает его более эффективным в выполнении сложных задач реального мира от начала до конца, чем любая предыдущая модель.

Производительность модели

Экономически ценные задачи

GPT-5.2 Thinking — лучшая на сегодняшний день модель для реального профессионального использования. В GDPval , оценке, измеряющей четко определенные задачи интеллектуального труда в 44 профессиях, GPT-5.2 Thinking устанавливает новый рекорд и является нашей первой моделью, которая работает на уровне эксперта или выше. В частности, по мнению экспертов, GPT-5.2 Thinking превосходит или сравнялась с ведущими специалистами отрасли в 70,9% случаев при сравнении задач интеллектуального труда в рамках GDPval. Эти задачи включают создание презентаций, электронных таблиц и других документов. GPT-5.2 Thinking выполнила задачи GDPval более чем в 11 раз быстрее и менее чем за 1% дешевле, чем эксперты, что говорит о том, что в сочетании с человеческим контролем GPT-5.2 может помочь в профессиональной работе. Оценки скорости и стоимости основаны на исторических показателях; скорость в ChatGPT может отличаться.

Оценивая один из особенно удачных результатов работы, один из членов жюри GDPval отметил: «Это впечатляющий и заметный скачок в качестве результатов… [он] выглядит так, будто его выполнила профессиональная компания со своим штатом сотрудников, и имеет удивительно хорошо продуманную структуру и рекомендации для обоих результатов, хотя в одном из них нам еще предстоит исправить некоторые незначительные ошибки».

Кроме того, в нашем внутреннем сравнительном анализе задач по моделированию в электронных таблицах для младших аналитиков инвестиционного банкинга — таких как составление модели из трех финансовых отчетов для компании из списка Fortune 500 с правильным форматированием и ссылками или построение модели выкупа с использованием заемных средств для приватизации — средний балл GPT 5.2 Thinking за задачу на 9,3% выше, чем у GPT-5.1, увеличившись с 59,1% до 68,4%.

Сравнительный анализ показывает улучшенную детализацию и форматирование электронных таблиц и слайдов, созданных с помощью GPT-5.2 Thinking:

Сравнительный пример выходных данных электронных таблиц, полученных с помощью GPT-5.1 и GPT-5.2.

Задание: Создайте модель планирования численности персонала: численность сотрудников, план найма, текучесть кадров и влияние на бюджет. Включите в модель инженерный, маркетинговый, юридический и отдел продаж.

Для использования новых возможностей работы с электронными таблицами и презентациями в ChatGPT необходимо иметь тарифный план Plus, Pro, Business или Enterprise и выбрать либо GPT-5.2 Thinking , либо Pro . Создание сложных презентаций может занять много минут.

Программирование

GPT-5.2 Thinking устанавливает новый стандарт, достигнув 55,6% в тесте SWE-Bench Pro, представляющем собой строгую оценку реальных задач разработки программного обеспечения. В отличие от SWE-bench Verified, который тестирует только Python, SWE-Bench Pro тестирует четыре языка и стремится быть более устойчивым к загрязнению, сложным, разнообразным и актуальным для промышленности.

В тесте SWE-bench Verified (результаты не показаны) показатель GPT‑5.2 Thinking достиг нового максимума в 80%.

В повседневном профессиональном использовании это означает модель, которая позволяет более надежно отлаживать производственный код, реализовывать запросы на новые функции, рефакторить большие кодовые базы и выпускать исправления от начала до конца с меньшим количеством ручного вмешательства.

GPT-5.2 Thinking также лучше подходит для фронтенд-разработки, чем GPT-5.1 Thinking. Первые тестировщики обнаружили, что он значительно лучше справляется с фронтенд-разработкой и сложной или нестандартной работой над пользовательским интерфейсом, особенно с использованием 3D-элементов, что делает его мощным инструментом для инженеров, работающих со всем стеком технологий. Вот несколько примеров того, что он может создать на основе одного запроса:

Задание: Создайте одностраничное приложение в одном HTML-файле, отвечающее следующим требованиям:
— Название: Моделирование океанских волн
— Цель: Отобразить реалистичные анимированные волны.
— Функции: Изменение скорости ветра, высоты волн, освещения.
— Пользовательский интерфейс должен быть спокойным и реалистичным.

Первые тестировщики поделились своими отзывами о возможностях программирования в GPT-5.2:

«GPT-5.2 представляет собой самый большой скачок для моделей GPT в области агентного программирования со времен GPT-5 и является лучшей моделью программирования в своем ценовом диапазоне. Увеличение версии не отражает в полной мере скачок в интеллектуальных возможностях. Мы рады сделать ее моделью по умолчанию для Windsurf и нескольких основных рабочих нагрузок Devin».

Джефф Ванг, генеральный директор Windsurf

Фактичность

Модель GPT-5.2 Thinking реже выдает галлюцинации, чем модель GPT-5.1 Thinking. В наборе обезличенных запросов из ChatGPT количество ответов с ошибками было на 30% меньше . Для профессионалов это означает меньше ошибок при использовании модели для исследований, написания текстов, анализа и поддержки принятия решений, что делает модель более надежной для повседневной работы с информацией.

Как и все модели, GPT-5.2 «Мышление» несовершенна. По любому важному вопросу следует перепроверить ответы.

Длинный контекст

GPT-5.2 Thinking устанавливает новый стандарт в области анализа длинного контекста, демонстрируя лучшие результаты в тесте OpenAI MRCRv2 — оценке, проверяющей способность модели интегрировать информацию, разбросанную по длинным документам. В реальных задачах, таких как глубокий анализ документов, требующий связи между сотнями тысяч токенов, GPT-5.2 Thinking значительно точнее, чем GPT-5.1 Thinking. В частности, это первая модель, которая, как мы видели, достигает почти 100% точности в варианте MRCR с 4 иглами (до 256 тысяч токенов).

На практике это позволяет профессионалам использовать GPT-5.2 для работы с длинными документами — такими как отчеты, контракты, научные статьи, стенограммы и многофайловые проекты — сохраняя при этом согласованность и точность сотен тысяч токенов. Это делает GPT-5.2 особенно подходящим для глубокого анализа, синтеза и сложных рабочих процессов с использованием нескольких источников.

Для задач, требующих выхода за пределы максимального контекстного окна, GPT-5.2 Thinking совместим с нашей новой конечной точкой Responses /compact , которая расширяет эффективное контекстное окно модели. Это позволяет GPT-5.2 Thinking справляться с более ресурсоемкими и длительными рабочими процессами, которые в противном случае были бы ограничены длиной контекста. Подробнее читайте в нашей документации по API (открывается в новом окне) .

Зрение

Модель GPT-5.2 Thinking — наша самая мощная модель обработки изображений на сегодняшний день, позволяющая сократить количество ошибок примерно вдвое при анализе диаграмм и понимании интерфейса программного обеспечения.

В повседневном профессиональном использовании это означает, что модель может более точно интерпретировать панели мониторинга, скриншоты продуктов, технические схемы и визуальные отчеты, поддерживая рабочие процессы в финансах, операциях, проектировании, дизайне и поддержке клиентов, где визуальная информация имеет центральное значение.

По сравнению с предыдущими моделями, GPT-5.2 Thinking лучше понимает расположение элементов на изображении, что помогает в задачах, где относительное расположение играет ключевую роль в решении проблемы. В приведенном ниже примере мы просим модель идентифицировать компоненты на входном изображении (в данном случае, материнскую плату) и вернуть метки с приблизительными ограничивающими рамками. Даже на изображении низкого качества GPT-5.2 идентифицирует основные области и размещает рамки, которые иногда соответствуют истинному расположению каждого компонента, в то время как GPT-5.1 помечает лишь несколько частей и демонстрирует гораздо более слабое понимание их пространственного расположения. Обе модели допускают явные ошибки, но GPT-5.2 демонстрирует лучшее понимание изображения.

ГПТ-5.1

Пример выходных данных GPT-5.1, определяющих компоненты на изображении.

ГПТ-5.2

Пример выходных данных GPT-5.2, определяющих компоненты на изображении.

вызов инструмента

GPT-5.2 Thinking достигает нового уровня производительности в 98,7% на тестовом наборе Tau2-bench Telecom, демонстрируя свою способность надежно использовать инструменты в длительных, многоэтапных задачах.

В сценариях использования, чувствительных к задержке, GPT-5.2 Thinking также демонстрирует гораздо лучшие результаты при reasoning.effort='none', существенно превосходя GPT-5.1 и GPT-4.1.

Для профессионалов это означает более эффективные сквозные рабочие процессы — такие как обработка обращений в службу поддержки клиентов, извлечение данных из нескольких систем, проведение анализа и создание конечных результатов с меньшим количеством сбоев между этапами.

Например, при обработке сложного вопроса в службе поддержки клиентов, требующего многоэтапного решения, модель может более эффективно координировать весь рабочий процесс между несколькими агентами. В приведенном ниже примере путешественник сообщает о задержке рейса, пропущенной пересадке, ночевке в Нью-Йорке и необходимости размещения по медицинским показаниям. GPT-5.2 управляет всей цепочкой задач — перебронированием, размещением с особыми потребностями и компенсацией — обеспечивая более полный результат, чем GPT-5.1.

Мой рейс из Парижа в Нью-Йорк задержали, и я пропустила стыковочный рейс в Остин. Мой зарегистрированный багаж также пропал, и мне нужно переночевать в Нью-Йорке. Кроме того, мне необходимо место в первом ряду по медицинским показаниям. Можете ли вы мне помочь?

ГПТ-5.1

Пример вывода команды вызова инструмента в GPT-5.1

ГПТ-5.2

Пример вывода команды вызова инструмента в GPT-5.2

Наука и математика

Одна из наших надежд на ИИ заключается в том, что он ускорит научные исследования на благо всех. С этой целью мы сотрудничаем с учеными и прислушиваемся к их мнению, чтобы понять, как ИИ может ускорить их работу, и в прошлом месяце мы поделились здесь некоторыми ранними результатами совместных экспериментов .

Мы считаем, что GPT-5.2 Pro и GPT-5.2 Thinking — лучшие в мире модели для помощи и ускорения работы ученых. В GPQA Diamond, сравнительном тесте вопросов и ответов для аспирантов, GPT-5.2 Pro набирает 93,2%, за ним следует GPT-5.2 Thinking с результатом 92,4%.

На платформе FrontierMath (уровни 1–3), оценивающей математический уровень экспертов, тест GPT-5.2 Thinking установил новый рекорд, решив 40,3% задач.

Мы начинаем видеть, как модели ИИ существенно ускоряют прогресс в математике и науке, причем ощутимым образом. Например, в недавней работе с GPT-5.2 Pro исследователи изучили открытый вопрос в теории статистического обучения. В узкой, четко определенной постановке задачи модель предложила доказательство, которое впоследствии было проверено авторами и рассмотрено внешними экспертами, демонстрируя, как передовые модели могут способствовать математическим исследованиям под пристальным наблюдением человека.

ARC-AGI 2

В тесте ARC-AGI-1 (проверено), предназначенном для измерения общих способностей к рассуждению, GPT-5.2 Pro стал первой моделью, преодолевшей порог в 90%, улучшив свой результат с 87% (открывается в новом окне) в прошлогодней версии o3-preview, при этом снизив стоимость достижения этого показателя примерно в 390 раз.

На тесте ARC-AGI-2 (проверено), который повышает сложность и лучше изолирует гибкое мышление, GPT-5.2 Thinking достигает нового уровня для моделей логического мышления, набрав 52,9%. GPT-5.2 Pro показывает еще более высокие результаты, достигая 54,2%, что еще больше расширяет возможности модели для решения новых, абстрактных задач.

Улучшения, отмеченные в ходе этих оценок, отражают более эффективную многоступенчатую систему рассуждений GPT-5.2, более высокую количественную точность и более надежное решение сложных технических задач.

Вот что говорят о GPT-5.2 наши первые тестировщики:

«GPT-5.2 открыл для нас полный архитектурный сдвиг. Мы объединили хрупкую многоагентную систему в одного мега-агента с более чем 20 инструментами. Самое лучшее — это то, что он просто работает. Мега-агент стал быстрее, умнее и в 100 раз проще в обслуживании. Мы наблюдаем значительно меньшую задержку, гораздо более эффективный вызов инструментов, и нам больше не нужны разветвлённые системные подсказки, потому что 5.2 будет корректно выполняться с помощью простой однострочной подсказки. Это похоже на чистую магию».

Эй Джей Орбах, генеральный директор Triple Whale

GPT-5.2 в ChatGPT

В ChatGPT пользователи должны заметить, что GPT-5.2 удобнее в повседневном использовании — он более структурирован, надежен и при этом по-прежнему приятен для общения.

GPT-5.2 Instant — это быстрый и мощный инструмент для повседневной работы и обучения, демонстрирующий явные улучшения в поиске информации, инструкциях и пошаговых руководствах, техническом тексте и переводе, основанные на более дружелюбном разговорном тоне, представленном в GPT-5.1 Instant. Первые тестировщики особенно отметили более понятные объяснения, которые выводят ключевую информацию на первый план.

GPT-5.2 Thinking разработан для более глубокой работы, помогая пользователям решать более сложные задачи с большей отточенностью — особенно это касается программирования, составления резюме длинных документов, ответов на вопросы о загруженных файлах, пошагового решения математических и логических задач, а также поддержки планирования и принятия решений с помощью более четкой структуры и более полезной информации.

GPT-5.2 Pro — это наш самый умный и надежный вариант для сложных задач, где более качественный ответ стоит того, чтобы подождать. Предварительное тестирование показало меньшее количество серьезных ошибок и более высокую производительность в сложных областях, таких как программирование.

Безопасность

GPT-5.2 основан на исследованиях безопасного завершения , которые мы представили в GPT-5, и учит модель давать наиболее полезный ответ, оставаясь при этом в пределах безопасных границ.

В этом релизе мы продолжили работу по улучшению реакции наших моделей на деликатные разговоры , добившись значительных улучшений в том, как они реагируют на подсказки, указывающие на признаки суицидальных наклонностей или членовредительства, психического расстройства или эмоциональной зависимости от модели. Эти целенаправленные вмешательства привели к уменьшению количества нежелательных реакций как в GPT-5.2 Instant, так и в GPT-5.2 Thinking по сравнению с моделями GPT-5.1 и GPT-5 Instant и Thinking. Более подробную информацию можно найти в карточке системы .

Мы находимся на начальном этапе внедрения нашей модели прогнозирования возраста , которая позволит нам автоматически применять меры защиты контента для пользователей младше 18 лет, чтобы ограничить доступ к конфиденциальной информации. Это дополняет наш существующий подход к пользователям, которые, как нам известно, младше 18 лет, и наши средства родительского контроля.

GPT-5.2 — это лишь один шаг в серии непрерывных улучшений, и мы еще далеки от завершения. Хотя этот релиз обеспечивает значительный прирост интеллекта и производительности, мы знаем, что есть области, где люди хотят большего. В ChatGPT мы работаем над известными проблемами, такими как чрезмерное количество отказов, одновременно продолжая повышать общий уровень безопасности и надежности. Эти изменения сложны, и мы сосредоточены на том, чтобы сделать их правильно.

Оценка психического здоровья

ГПТ-5.2
Мгновенный

ГПТ-5.1
Мгновенный

ГПТ-5.2
Мышление

ГПТ-5.1
Мышление

Психическое здоровье

0,995

0,883

0,915

0,684

Эмоциональная зависимость

0,938

0,945

0,955

0,785

Причинять себе вред

0,938

0,925

0,963

0,937

Наличие и цены

В ChatGPT мы начинаем внедрение GPT-5.2 (Instant, Thinking и Pro) сегодня, начиная с платных тарифных планов (Plus, Pro, Go, Business, Enterprise). Мы внедряем GPT-5.2 постепенно, чтобы обеспечить максимально плавную и надежную работу ChatGPT; если вы не видите его с первого раза, пожалуйста, попробуйте позже. В ChatGPT GPT-5.1 будет доступен платным пользователям в течение трех месяцев в рамках старых тарифных планов, после чего мы прекратим его поддержку.

Именование моделей в ChatGPT и API

ChatGPT

API

ChatGPT-5.2 Instant

GPT-5.2-chat-latest

ChatGPT-5.2 Мышление

ГПТ-5.2

ChatGPT-5.2 Pro

GPT-5.2 Pro

В нашей API-платформе GPT-5.2 Thinking доступен уже сегодня в API ответов и API завершения чатов как gpt-5.2 , а GPT-5.2 Instant — как gpt-5.2-chat-latest . GPT-5.2 Pro доступен в API ответов как gpt-5.2-pro . Разработчики теперь могут устанавливать параметр логического вывода в GPT-5.2 Pro, и обе версии GPT-5.2 Pro и GPT-5.2 Thinking теперь поддерживают новый пятый уровень логического вывода — xhigh, для задач, где качество имеет первостепенное значение.

Цена GPT-5.2 составляет 1,75 долл. США за 1 млн входных токенов и 14 долл. США за 1 млн выходных токенов, при этом предоставляется скидка 90% на кэшированные входные данные. В ходе многочисленных агентских оценок мы обнаружили, что, несмотря на более высокую стоимость GPT-5.2 за токен, стоимость достижения заданного уровня качества в итоге оказалась ниже благодаря большей эффективности токенов GPT-5.2.

Хотя стоимость подписки на ChatGPT остаётся прежней, в API модель GPT-5.2 стоит дороже за токен, чем GPT-5.1, поскольку она более функциональна. Тем не менее, её цена по-прежнему ниже, чем у других перспективных моделей, поэтому пользователи могут продолжать активно использовать её в своей повседневной работе и основных приложениях.

Цена за миллион токенов

Модель

Вход

Кэшированный ввод

Выход

gpt-5.2 /
gpt-5.2-chat-latest

1,75 доллара

0,175 доллара

14 долларов

gpt-5.2-pro

21 доллар

168 долларов

gpt-5.1 /
gpt-5.1-chat-latest

1,25 доллара

0,125 доллара

10 долларов

gpt-5-pro

15 долларов

120 долларов

В настоящее время у нас нет планов по прекращению поддержки GPT-5.1, GPT-5 или GPT-4.1 в API, и мы сообщим о любых планах по прекращению поддержки заблаговременно до того, как они станут недоступны для разработчиков. Хотя GPT-5.2 будет хорошо работать в Codex без дополнительных настроек, мы ожидаем выпустить версию GPT-5.2, оптимизированную для Codex, в ближайшие недели.

Наши партнеры

GPT-5.2 был разработан в сотрудничестве с нашими давними партнерами NVIDIA и Microsoft. Центры обработки данных Azure и графические процессоры NVIDIA, включая H100, H200 и GB200-NVL72, лежат в основе инфраструктуры масштабируемого обучения OpenAI, обеспечивая значительный прирост интеллектуальных возможностей моделей. Благодаря этому сотрудничеству мы можем уверенно масштабировать вычислительные мощности и быстрее выводить новые модели на рынок.

Приложение

Подробные сравнительные тесты

Ниже представлены полные результаты сравнительных тестов для GPT-5.2 Thinking, а также их часть для GPT-5.2 Pro.

Профессиональный
GPT-5.2 Мышление GPT-5.2 Pro GPT-5.1 Мышление
GDPval (допускаются ничьи, победы или ничьи) 70,9% 74,1% 38,8% (ГПТ-5)
GDPval (допускаются ничьи, явные победители) 49,8% 60,0% 35,5% (ГПТ-5)
ВВПval (без совпадений) 61,0% 67,6% 37,1% (ГПТ-5)
Задачи по работе с электронными таблицами в инвестиционном банкинге (внутренние) 68,4% 71,7% 59,1%
Программирование
GPT-5.2 Мышление GPT-5.2 Pro GPT-5.1 Мышление
SWE-Bench Pro, публичный 55,6% 50,8%
Проверено с помощью SWE-bench 80,0% 76,3%
SWE-Lancer, IC Diamond* 74,6% 69,7%
Фактичность
GPT-5.2 Мышление GPT-5.2 Pro GPT-5.1 Мышление
ChatGPT отвечает без ошибок (с функцией поиска). 93,9% 91,2%
Ответы ChatGPT без ошибок (без поиска) 88,0% 87,3%
Длинный контекст
GPT-5.2 Мышление GPT-5.2 Pro GPT-5.1 Мышление
OpenAI MRCRv2, 8 игл, 4k–8k 98,2% 65,3%
OpenAI MRCRv2, 8 игл, 8k–16k 89,3% 47,8%
OpenAI MRCRv2, 8 игл, 16–32 тыс. 95,3% 44,0%
OpenAI MRCRv2, 8 игл, 32–64 тыс. 92,0% 37,8%
OpenAI MRCRv2, 8 игл, 64k–128k 85,6% 36,0%
OpenAI MRCRv2, 8 игл, 128–256 тыс. 77,0% 29,6%
BrowseComp Long Context 128k 92,0% 90,0%
BrowseComp Длинный контекст 256k 89,8% 89,5%
GraphWalks bfs <128k 94,0% 76,8%
Graphwalks parents <128k 89,0% 71,5%
Зрение
GPT-5.2 Мышление GPT-5.2 Pro GPT-5.1 Мышление
Рассуждения на CharXiv (без инструментов) 82,1% 67,0%
Рассуждения на CharXiv (с использованием Python) 88,7% 80,3%
MMMU Pro (без инструментов) 79,5%
MMMU Pro (с Python) 80,4% 79,0%
Видео MMMU (без инструментов) 85,9% 82,9%
Screenspot Pro (с Python) 86,3% 64,2%
Использование инструментов
GPT-5.2 Мышление GPT-5.2 Pro GPT-5.1 Мышление
Tau2-bench Telecom 98,7% 95,6%
Tau2-bench Retail 82,0% 77,9%
BrowseComp 65,8% 77,9% 50,8%
Масштаб MCP-атласа 60,6% 44,5%
Туатлон 46,3% 36,1%
Академический
GPT-5.2 Мышление GPT-5.2 Pro GPT-5.1 Мышление
GPQA Diamond (без инструментов) 92,4% 93,2% 88,1%
HLE (без инструментов) 34,5% 36,6% 25,7%
HLE (с поиском, Python) 45,5% 50,0% 42,7%
МММЛУ 89,6% 89,5%
HMMT, февраль 2025 г. (без инструментов) 99,4% 100.0% 96,3%
AIME 2025 (без инструментов) 100.0% 100.0% 94,0%
FrontierMath, уровни 1–3 (с Python) 40,3% 31,0%
FrontierMath Уровень 4 (с Python) 14,6% 12,5%
Абстрактное рассуждение
GPT-5.2 Мышление GPT-5.2 Pro GPT-5.1 Мышление
ARC-AGI-1 (проверено) 86,2% 90,5% 72,8%
ARC-AGI-2 (проверено) 52,9% 54,2% (высокий) 17,6%

Модели запускались с максимальным доступным уровнем вычислительных ресурсов в нашем API (xhigh для GPT-5.2 Thinking и Pro, и high для GPT-5.1 Thinking), за исключением профессиональных оценок, где GPT-5.2 Thinking запускался с максимальным уровнем вычислительных ресурсов, доступным в ChatGPT Pro. Бенчмаркинг проводился в исследовательской среде, что в некоторых случаях может дать несколько иные результаты по сравнению с производственной версией ChatGPT.

* В случае с SWE-Lancer мы исключаем 40 из 237 проблем, которые не были решены на нашей инфраструктуре.

Источник: openai.com

Оцените материал:

Читайте также
Архив рубрики ~Обо всем~ Я бы порекомендовал этот мини-телевизор TCL LED, который продается на 1000 долларов дешевле, чем премиальные модели Samsung и LG. Архив рубрики ~Обо всем~ Решение задачи о вероятности для последовательности 3Blue1Brown (без ИИ) Архив рубрики ~Обо всем~ Google подает в суд на китайских мошенников, использующих Gemini AI для совершения мошеннических действий. Архив рубрики ~Обо всем~ Rocket Report: Ракета «Нова» проходит испытательный цикл; IPO SpaceX состоится в пятницу. Архив рубрики ~Обо всем~ Я позволяю Siri видеть мою жизнь на Vision Pro, и это предзнаменование грядущих событий. Архив рубрики ~Обо всем~ Новая электронная книга Boox Go 6 поддерживает использование стилуса для ведения заметок. Новости робототехники Вера в немецких роботов вышла за пределы ЕС Архив рубрики ~Обо всем~ Инженеры, застрявшие внутри, говорят, что созданный всего несколько месяцев назад блок искусственного интеллекта компании Meta — это настоящий ГУЛАГ, где царит атмосфера отчаяния. Архив рубрики ~Коротко из Telegram~ Математики объявили войну ИИ-хайпу Более 150 ведущих мировых математиков опубликовали… Архив рубрики ~Коротко из Telegram~ Siri переезжает в Spotlight и получает доступ к файлам Apple… Архив рубрики ~Коротко из Telegram~ Скилл, который отучает ИИ делать одинаковые сайты Для агентного фронтенда… Архив рубрики ~Коротко из Telegram~ Собираем себе ИИ-офис из агентов Появился Agent Teams — инструмент,… Архив рубрики ~Коротко из Telegram~ Siri стала Siri AI — теперь это не просто ассистент,… Архив рубрики ~Коротко из Telegram~ ХАЛЯВА ОТ NVIDIA: они раздают доступ к 95 бесплатным API… Архив рубрики ~Обо всем~ Я бы порекомендовал этот мини-телевизор TCL LED, который продается на 1000 долларов дешевле, чем премиальные модели Samsung и LG. Архив рубрики ~Обо всем~ Решение задачи о вероятности для последовательности 3Blue1Brown (без ИИ) Архив рубрики ~Обо всем~ Google подает в суд на китайских мошенников, использующих Gemini AI для совершения мошеннических действий. Архив рубрики ~Обо всем~ Rocket Report: Ракета «Нова» проходит испытательный цикл; IPO SpaceX состоится в пятницу. Архив рубрики ~Обо всем~ Я позволяю Siri видеть мою жизнь на Vision Pro, и это предзнаменование грядущих событий. Архив рубрики ~Обо всем~ Новая электронная книга Boox Go 6 поддерживает использование стилуса для ведения заметок. Новости робототехники Вера в немецких роботов вышла за пределы ЕС Архив рубрики ~Обо всем~ Инженеры, застрявшие внутри, говорят, что созданный всего несколько месяцев назад блок искусственного интеллекта компании Meta — это настоящий ГУЛАГ, где царит атмосфера отчаяния. Архив рубрики ~Коротко из Telegram~ Математики объявили войну ИИ-хайпу Более 150 ведущих мировых математиков опубликовали… Архив рубрики ~Коротко из Telegram~ Siri переезжает в Spotlight и получает доступ к файлам Apple… Архив рубрики ~Коротко из Telegram~ Скилл, который отучает ИИ делать одинаковые сайты Для агентного фронтенда… Архив рубрики ~Коротко из Telegram~ Собираем себе ИИ-офис из агентов Появился Agent Teams — инструмент,… Архив рубрики ~Коротко из Telegram~ Siri стала Siri AI — теперь это не просто ассистент,… Архив рубрики ~Коротко из Telegram~ ХАЛЯВА ОТ NVIDIA: они раздают доступ к 95 бесплатным API…

Оставить комментарий