Представляем GPT-5.5 | OpenAI
Новый класс интеллекта для реальной работы
Обновление от 24 апреля 2026 г.: GPT-5.5 и GPT-5.5 Pro теперь доступны в API. Также обновлена информация о дополнительных мерах безопасности, которые применяются .
Мы выпускаем GPT-5.5, нашу самую интеллектуальную и интуитивно понятную модель на сегодняшний день, и следующий шаг к новому способу выполнения работы за компьютером.
GPT-5.5 быстрее понимает, что вы пытаетесь сделать, и может самостоятельно выполнить большую часть работы. Он превосходно справляется с написанием и отладкой кода, поиском информации в интернете, анализом данных, созданием документов и электронных таблиц, работой с программным обеспечением и переключением между инструментами до завершения задачи. Вместо того чтобы тщательно управлять каждым шагом, вы можете поручить GPT-5.5 сложную, многоэтапную задачу и доверить ей планирование, использование инструментов, проверку своей работы, преодоление неопределенности и продолжение работы.
Особенно заметны преимущества в программировании агентов, использовании компьютеров, работе с информацией и ранних научных исследованиях — областях, где прогресс зависит от рассуждений в контексте и принятия решений с течением времени. GPT-5.5 обеспечивает этот шаг вперед в интеллектуальном плане без ущерба для скорости: более крупные и мощные модели часто работают медленнее, но GPT-5.5 соответствует задержке на токен GPT-5.4 в реальных условиях, демонстрируя при этом гораздо более высокий уровень интеллекта. Кроме того, для выполнения тех же задач Codex используется значительно меньше токенов, что делает его более эффективным и функциональным.
Мы выпускаем GPT-5.5 с самым надежным на сегодняшний день набором мер защиты, разработанных для снижения случаев неправомерного использования при сохранении доступа для полезной работы. Мы оценили эту модель в рамках всего нашего набора систем обеспечения безопасности и готовности, работали с внутренними и внешними специалистами по тестированию на проникновение, добавили целевое тестирование передовых возможностей в области кибербезопасности и биологии, а также собрали отзывы о реальных сценариях использования от почти 200 доверенных партнеров, получивших ранний доступ, до выпуска.
Сегодня GPT-5.5 становится доступен пользователям Plus, Pro, Business и Enterprise в ChatGPT и Codex, а GPT-5.5 Pro — пользователям Pro, Business и Enterprise в ChatGPT. Развертывание API требует различных мер безопасности, и мы тесно сотрудничаем с партнерами и клиентами по вопросам безопасности и защиты данных при масштабируемом использовании. GPT-5.5 и GPT-5.5 Pro будут доступны в API в ближайшее время.
|
ГПТ-5.5 |
ГПТ-5.4 |
GPT-5.5 Pro |
GPT-5.4 Pro |
Клод Опус 4.7 |
Gemini 3.1 Pro |
|
|
Терминальный стенд 2.0 |
82,7% |
75,1% |
— |
— |
69,4% |
68,5% |
|
Эксперт-программист (внутренний) |
73,1% |
68,5% |
— |
— |
— |
— |
|
ВВПval (победы или ничьи) |
84,9% |
83,0% |
82,3% |
82,0% |
80,3% |
67,3% |
|
Проверено OSWorld |
78,7% |
75,0% |
— |
— |
78,0% |
— |
|
Туатлон |
55,6% |
54,6% |
— |
— |
— |
48,8% |
|
BrowseComp |
84,4% |
82,7% |
90,1% |
89,3% |
79,3% |
85,9% |
|
FrontierMath, уровни 1–3 |
51,7% |
47,6% |
52,4% |
50,0% |
43,8% |
36,9% |
|
FrontierMath Уровень 4 |
35,4% |
27,1% |
39,6% |
38,0% |
22,9% |
16,7% |
|
Киберспортзал |
81,8% |
79,0% |
— |
— |
73,1% |
— |
Возможности модели
OpenAI создает глобальную инфраструктуру для агентного ИИ, позволяя людям и предприятиям по всему миру выполнять работу с помощью ИИ. За последний год мы стали свидетелями того, как ИИ значительно ускорил разработку программного обеспечения. С появлением GPT-5.5 в Codex и ChatGPT эта же трансформация начинает распространяться на научные исследования и более широкую работу, которую люди выполняют на компьютерах.
В этих областях GPT-5.5 не просто умнее, но и эффективнее в решении задач, часто достигая более качественных результатов с меньшим количеством токенов и меньшим количеством повторных попыток. В рейтинге Coding Index от Artificial Analysis GPT-5.5 обеспечивает передовые интеллектуальные возможности при вдвое меньших затратах по сравнению с конкурирующими моделями кодирования, находящимися на переднем крае технологий.
Индекс искусственного интеллекта (Artificial Analysis Intelligence Index ) (открывается в новом окне) представляет собой взвешенное среднее значение 10 оценок, проведенных сторонней организацией: AA-LCR, AA-Omniscience, CritPt, GDPval-AA, GPQA Diamond, Humanity's Last Exam, IFBench, SciCode, Terminal-Bench Hard, τ²-Bench Telecom.
Агентное кодирование
GPT-5.5 — наша самая мощная на сегодняшний день модель агентного программирования. На Terminal-Bench 2.0, тестирующем сложные рабочие процессы командной строки, требующие планирования, итераций и координации инструментов, она достигает передовой точности в 82,7%. На SWE-Bench Pro , оценивающем решение реальных задач GitHub, она достигает 58,6%, решая больше задач от начала до конца за один проход, чем предыдущие модели. На Expert-SWE , нашем внутреннем оценочном тесте для долгосрочных задач программирования со средним расчетным временем выполнения человеком в 20 часов, GPT-5.5 также превосходит GPT-5.4.
По результатам всех трех оценок, GPT-5.5 превосходит показатели GPT-5.4, используя при этом меньшее количество токенов.
Сильные стороны модели в области программирования особенно ярко проявляются в Codex, где она может выполнять инженерную работу, начиная от реализации и рефакторинга и заканчивая отладкой, тестированием и проверкой. Предварительные тесты показывают, что GPT-5.5 лучше справляется с теми задачами, от которых зависит реальная инженерная работа, такими как поддержание контекста в больших системах, анализ неоднозначных ошибок, проверка предположений с помощью инструментов и внесение изменений в окружающий код.
В представленной траектории используются векторные данные NASA/JPL Horizons для созвездия Ориона, Луны и Солнца, а масштабирование изображения применено для удобства чтения.
Задание: [прикрепленное изображение] Реализуйте это как новое приложение, используя WebGL и Vite, на основе реальных данных миссии Artemis II. Тщательно протестируйте приложение, пока оно не станет полностью функциональным и не будет выглядеть так же, как на картинке. Обратите особое внимание на отрисовку планет и траекторий полета. Я хочу иметь возможность взаимодействовать с 3D-рендерингом. Убедитесь, что он имеет реалистичную орбитальную механику.
Помимо результатов бенчмарков, первые тестировщики отметили, что GPT-5.5 демонстрирует более высокую способность понимать структуру системы: почему что-то не работает, где необходимо внести исправления и что еще в кодовой базе будет затронуто.
«Первая модель кодирования, которую я использовал, отличающаяся серьезной концептуальной ясностью».
«Первая модель кодирования, которую я использовал, отличающаяся серьезной концептуальной ясностью».
Дэн Шиппер , основатель и генеральный директор Every, охарактеризовал GPT-5.5 как «первую модель кодирования, которую я использовал, отличающуюся серьезной концептуальной ясностью».
После запуска приложения он потратил несколько дней на отладку проблемы, возникшей после запуска, прежде чем привлечь одного из своих лучших инженеров для переписывания части системы. Чтобы протестировать GPT-5.5, он фактически повернул время вспять: могла ли модель, анализируя неисправное состояние, создать тот же вариант переписывания, который в итоге выбрал инженер? GPT-5.4 не могла. GPT-5.5 могла.
«У меня действительно такое ощущение, будто я работаю с высшим разумом, и я испытываю к нему почти уважение».
«У меня действительно такое ощущение, будто я работаю с высшим разумом, и я испытываю к нему почти уважение».
Пьетро Ширано, генеральный директор MagicPath, наблюдал аналогичный качественный скачок, когда в GPT-5.5 ветка с сотнями изменений во фронтенде и рефакторинге была объединена с основной веткой, которая также претерпела существенные изменения, что позволило решить задачу за один раз примерно за 20 минут.
Старшие инженеры, тестировавшие модель, отметили, что GPT-5.5 заметно превосходит GPT-5.4 и Claude Opus 4.7 по логическому мышлению и автономности, выявляя проблемы заранее и прогнозируя потребности в тестировании и проверке без явных подсказок. В одном случае инженер попросил модель перепроектировать систему комментариев в совместном редакторе Markdown и получил практически завершенный стек из 12 изменений. Другие отметили, что им потребовалось удивительно мало корректировок в реализации, и они чувствовали себя более уверенно в планах GPT-5.5 по сравнению с GPT-5.4.
Один из инженеров NVIDIA, получивший ранний доступ к модели, даже сказал: «Потеря доступа к GPT-5.5 ощущается так, будто мне ампутировали конечность».
«GPT-5.5 заметно умнее и настойчивее, чем GPT-5.4, демонстрирует более высокую производительность кодирования и более надежное использование инструментов. Он остается сосредоточенным на задаче значительно дольше, не останавливаясь преждевременно, что особенно важно для сложных и длительных задач, которые наши пользователи делегируют Cursor».
— Майкл Труэлл, соучредитель и генеральный директор Cursor
Работа с интеллектуальным трудом
Те же преимущества, которые делают GPT-5.5 отличным инструментом для программирования, также делают его мощным инструментом для повседневной работы за компьютером. Поскольку модель лучше понимает намерения, она может более естественно проходить полный цикл обработки знаний: поиск информации, понимание того, что важно, использование инструментов, проверка результатов и преобразование исходного материала в нечто полезное.
В Codex модель GPT-5.5 превосходит GPT-5.4 в создании документов, электронных таблиц и презентаций. Альфа-тестеры отметили, что она превзошла предыдущие модели в таких задачах, как исследование операций, моделирование в электронных таблицах и преобразование сложных бизнес-данных в планы. В сочетании с навыками работы с компьютером, присущими Codex, GPT-5.5 приближает нас к ощущению, что модель действительно может использовать компьютер вместе с вами: видеть то, что отображается на экране, щелкать мышкой, печатать, перемещаться по интерфейсам и точно переключаться между инструментами.
Команды OpenAI уже используют эти преимущества в реальных рабочих процессах. Сегодня более 85% компании используют Codex каждую неделю в различных подразделениях, включая разработку программного обеспечения, финансы, коммуникации, маркетинг, анализ данных и управление продуктами. В отделе коммуникаций команда использовала GPT-5.5 в Codex для анализа данных о запросах на выступления за шесть месяцев, создания системы оценки и анализа рисков, а также проверки автоматизированного агента Slack, чтобы запросы с низким уровнем риска обрабатывались автоматически, а запросы с более высоким уровнем риска по-прежнему направлялись на проверку человеком. В финансовом отделе команда использовала Codex для проверки 24 771 налоговой формы K-1 общим объемом 71 637 страниц, используя рабочий процесс, исключающий личную информацию, что помогло команде ускорить выполнение задачи на две недели по сравнению с предыдущим годом. В команде по выходу на рынок сотрудник автоматизировал создание еженедельных бизнес-отчетов, сэкономив 5-10 часов в неделю.
В ChatGPT GPT-5.5 Thinking обеспечивает более быструю помощь в решении сложных задач, предлагая более интеллектуальные и лаконичные ответы, которые помогут вам эффективнее справляться со сложной работой. Он отлично подходит для профессиональной работы, такой как программирование, исследования, синтез и анализ информации, а также для задач, требующих большого объема документов, особенно при использовании плагинов.
В GPT-5.5 Pro первые тестировщики отмечают значительное повышение как сложности, так и качества работы, которую может выполнять ChatGPT, а также улучшение задержки, что делает его гораздо более практичным для сложных задач. По сравнению с GPT-5.4 Pro, тестировщики сочли ответы GPT-5.5 Pro значительно более полными, хорошо структурированными, точными, релевантными и полезными, особенно в таких областях, как бизнес, юриспруденция, образование и анализ данных.
GPT-5.5 демонстрирует лучшие результаты в нескольких тестах, отражающих подобную работу. В тесте GDPval , который проверяет способность агентов выполнять четко определенную интеллектуальную работу в 44 профессиях, GPT-5.5 набирает 84,9%. В тесте OSWorld-Verified , который измеряет способность модели самостоятельно работать в реальных компьютерных средах, он достигает 78,7%. А в тесте Tau2-bench Telecom , который тестирует сложные рабочие процессы обслуживания клиентов, он достигает 98,0% без предварительной настройки. GPT-5.5 также показывает высокие результаты в других тестах на интеллектуальную работу: 60,0% в FinanceAgent , 88,5% в задачах моделирования для внутренних инвестиционных банков и 54,1% в OfficeQA Pro .
Тест Tau2-bench Telecom проводился без предварительной настройки параметров (с использованием GPT-4.1 в качестве модели пользователя). GPT-5.5 лучше понимает цель задачи и более эффективен с точки зрения использования токенов, чем его предшественники.
«GPT-5.5 обеспечивает стабильную производительность, необходимую для ресурсоемких задач. Разработанная и поддерживаемая на системах NVIDIA GB200 NVL72, эта модель позволяет нашим командам внедрять сквозные функции, используя подсказки на естественном языке, сокращать время отладки с дней до часов и превращать недели экспериментов в мгновенный прогресс в сложных кодовых базах. Это больше, чем просто ускоренное программирование — это новый способ работы, который помогает людям работать с принципиально иной скоростью».
— Джастин Бойтано, вице-президент по корпоративному искусственному интеллекту в NVIDIA
Научные исследования
GPT-5.5 также демонстрирует преимущества в рабочих процессах научных и технических исследований, которые требуют большего, чем просто ответ на сложный вопрос. Исследователям необходимо изучить идею, собрать доказательства, проверить предположения, интерпретировать результаты и решить, что попробовать дальше. GPT-5.5 лучше справляется с поддержанием этого цикла, чем другие модели.
Примечательно, что GPT-5.5 демонстрирует явное улучшение по сравнению с GPT-5.4 на GeneBench (открывается в новом окне) , новом оценочном тесте, ориентированном на многоэтапный анализ научных данных в генетике и количественной биологии. Эти задачи требуют от моделей способности анализировать потенциально неоднозначные или ошибочные данные с минимальным контролем, преодолевать реалистичные препятствия, такие как скрытые факторы, влияющие на результат, или ошибки контроля качества, а также правильно применять и интерпретировать современные статистические методы. Производительность модели поразительна, учитывая, что задачи здесь часто соответствуют многодневным проектам для научных экспертов.
Аналогичным образом, на BixBench (открывается в новом окне) , бенчмарке, разработанном для анализа биоинформатики и данных в реальных условиях, GPT-5.5 показал лучшие результаты среди моделей с опубликованными оценками. Научные возможности модели теперь достаточно сильны, чтобы существенно ускорить прогресс на переднем крае биомедицинских исследований в качестве полноценного соавтора.
В другом примере внутренняя версия GPT-5.5 с пользовательским интерфейсом помогла обнаружить новое доказательство (открывается в новом окне) чисел Рамсея, одного из центральных объектов комбинаторики. Комбинаторика изучает, как дискретные объекты взаимодействуют друг с другом: графы, сети, множества и закономерности. Числа Рамсея, грубо говоря, задают вопрос о том, насколько большой должна быть сеть, чтобы гарантированно возник какой-либо порядок. Результаты в этой области редки и часто технически сложны. Здесь GPT-5.5 обнаружил доказательство давнего асимптотического факта о недиагональных числах Рамсея, позже подтвержденного в Lean. Результат является конкретным примером того, как GPT-5.5 вносит вклад не только в код или объяснение, но и в удивительное и полезное математическое обоснование в ключевой области исследований.
Первые тестировщики использовали GPT-5.5 Pro в ChatGPT не столько как систему для получения ответов на разовые вопросы, сколько как партнера в исследованиях: они критиковали рукописи в несколько этапов, проверяли технические аргументы на прочность, предлагали варианты анализа и работали с кодом, заметками и контекстом PDF-файлов. Общая черта GPT-5.5 заключается в том, что он лучше помогает исследователям переходить от вопроса к эксперименту и результату.

Дерья Унутмаз , профессор иммунологии и исследователь из Лаборатории геномной медицины Джексона, использовал GPT-5.5 Pro для анализа набора данных экспрессии генов, включающего 62 образца и почти 28 000 генов, и подготовил подробный исследовательский отчет, который не только обобщил результаты, но и выявил ключевые вопросы и идеи — работа, которая, по его словам, заняла бы у его команды несколько месяцев.

Бартош Наскрецкий , доцент кафедры математики в Университете имени Адама Мицкевича в Познани, Польша, использовал GPT-5.5 в Codex для создания приложения по алгебраической геометрии на основе одного запроса за 11 минут, визуализируя пересечение квадратичных поверхностей и преобразуя полученную кривую в модель Вейерштрасса.
Позже он расширил возможности приложения, добавив более стабильную визуализацию сингулярностей и точные коэффициенты, которые можно использовать в дальнейшей работе. Для него более значительным изменением стало то, что Codex теперь может помочь в реализации пользовательских рабочих процессов математической визуализации и компьютерной алгебры, которые ранее требовали специальных инструментов. В совокупности эти примеры показывают, как GPT-5.5 превращает замысел эксперта в работающие исследовательские инструменты и анализы.

Фото: Бартош Наскренцки (откроется в новом окне)
Подсказка: # Пересечение поверхностей в алгебраической геометрии
Создайте приложение, которое рисует две квадратичные поверхности и окрашивает красным цветом кривую пересечения. Используйте вычислительную теорему Римана-Роха для преобразования этой кривой в кривую Вейерштрасса.
## Главное окно
Две тонированные поверхности со слегка прозрачным затенением, выполненные в высоком качестве, пересекаются вдоль алгебраической кривой красного цвета.
Вращение мышью в обоих направлениях, полномасштабное масштабирование с помощью жеста «щипок», тактильная отдача при нажатии для отображения небольшого меню с ползунками для изменения коэффициентов каждой поверхности; определение на уровне Z-буфера.
## Правое боковое окно
Краткое уравнение Вейерштрасса (по полю Q или квадратичному расширению поля), вычисляемое в процессе работы с помощью эффективных формул теоремы Римана-Роха.
## Режим Ambient, в котором все элементы управления скрыты, и пользователь может любоваться красотой форм.
## Технические характеристики
Приложение работает в браузере, легковесная реализация с использованием новейших библиотек полного стека, портативное, развертываемое.
## Документы
Репозиторий Git, дневник, план (файлы Markdown)
«Использование новой модели GPT-5.5 от OpenAI в нашей системе невероятно воодушевляет: она обрабатывает огромные массивы биохимических данных для прогнозирования результатов применения лекарств у человека, а затем мы видим, как она обеспечивает значительное повышение точности в самых сложных задачах по разработке лекарств. Если OpenAI продолжит в том же духе, к концу года основы разработки лекарств изменятся».
— Брэндон Уайт, соучредитель и генеральный директор Axiom Bio
Эффективность вывода следующего поколения
Для обеспечения работы GPT-5.5 с задержкой GPT-5.4 потребовалось переосмыслить вывод данных как интегрированную систему, а не как набор изолированных оптимизаций. GPT-5.5 был разработан, обучен и запущен на системах NVIDIA GB200 и GB300 NVL72. Codex и GPT-5.5 сыграли решающую роль в достижении целевых показателей производительности. Codex помог команде быстрее перейти от идеи к реализации, пригодной для тестирования, набросать подходы, провести эксперименты по настройке соединений и определить, какие оптимизации заслуживают более глубоких инвестиций. GPT-5.5 помог найти и внедрить ключевые улучшения в сам стек. Проще говоря, модель помогла улучшить инфраструктуру, которая её обслуживает.
Одним из таких улучшений стали эвристические алгоритмы балансировки нагрузки и разделения запросов. До GPT-5.5 мы разделяли запросы на акселераторе на фиксированное количество фрагментов, чтобы сбалансировать работу между вычислительными ядрами, обеспечивая выполнение больших и малых запросов на одном и том же графическом процессоре. Однако заранее определенное количество статических фрагментов не является оптимальным для всех типов трафика. Для более эффективного использования графических процессоров компания Codex проанализировала структуру производственного трафика за несколько недель и разработала собственные эвристические алгоритмы для оптимального разделения и балансировки работы. Эти усилия оказали огромное влияние, увеличив скорость генерации токенов более чем на 20%.
Развитие кибербезопасности для защиты каждого.
Подготовка мира к моделям, которые очень хорошо справляются с поиском и устранением уязвимостей безопасности, — это командная работа, требующая от всей экосистемы усердной работы по повышению устойчивости, демократизации доступа к моделям и итеративного развертывания для следующей эры киберзащиты .
Передовые модели становятся все более совершенными в области кибербезопасности. Эти возможности получат широкое распространение, и мы считаем, что наилучший путь вперед — это обеспечить их использование для ускорения киберзащиты и укрепления экосистемы.
GPT-5.5 — это постепенный, но важный шаг на пути к созданию ИИ, способного решать самые сложные мировые проблемы, такие как кибербезопасность. В декабре, с выходом GPT-5.2, мы заблаговременно внедрили необходимые меры киберзащиты , чтобы ограничить потенциальные злоупотребления в сфере кибербезопасности с помощью наших моделей; теперь, с GPT-5.5, мы внедряем более строгие классификаторы для оценки потенциальных киберрисков, что поначалу может показаться некоторым пользователям неудобным, поскольку мы будем настраивать их со временем.
Мы уже много лет выделяем кибербезопасность в отдельную категорию в нашей системе обеспечения готовности (открывается в новом окне), поскольку наши модели постепенно совершенствуются, а мы итеративно разрабатываем и калибруем меры по смягчению последствий, чтобы ответственно выпускать модели со значимыми возможностями в области кибербезопасности.
- Для обеспечения такого уровня кибербезопасности мы внедряем передовые в отрасли меры защиты. Впервые мы представили специализированные меры защиты от киберугроз в GPT-5.2 (открывается в новом окне) в прошлом году, и с тех пор продолжаем тестировать, совершенствовать и развивать их в последующих версиях. В GPT-5.5 мы разработали более жесткие меры контроля в отношении действий с высоким риском, конфиденциальных запросов и добавили защиту от повторного неправомерного использования. Широкий доступ обеспечивается нашими инвестициями в безопасность моделей, аутентифицированное использование и мониторинг недопустимого использования. В течение нескольких месяцев мы работали с внешними экспертами над разработкой, тестированием и повышением надежности этих мер защиты. С GPT-5.5 мы гарантируем разработчикам возможность легко защитить свой код, одновременно усиливая контроль над киберпроцессами, которые с наибольшей вероятностью могут нанести вред злоумышленникам.
- Мы расширяем доступ для ускорения киберзащиты на всех уровнях. Мы делаем наши модели кибербезопасности доступными через Trusted Access for Cyber , начиная с Codex, который включает расширенный доступ к передовым возможностям кибербезопасности GPT-5.5 с меньшими ограничениями для проверенных пользователей, отвечающих определенным сигналам доверия (открывается в новом окне) на момент запуска. Организации, ответственные за защиту критической инфраструктуры , могут подать заявку на доступ к моделям кибербезопасности, таким как GPT-5.4-Cyber, при соблюдении строгих требований безопасности для использования этих моделей для защиты своих внутренних систем. Это предоставляет широкому кругу проверенных защитников более эффективные инструменты для законной работы в области безопасности с меньшим количеством ненужных препятствий, обеспечивая демократизацию доступа к важным возможностям защиты. Пользователи могут подать заявку на доверенный доступ на chatgpt.com/cyber (открывается в новом окне), чтобы уменьшить количество ненужных отказов при использовании GPT-5.5 для проверенной работы в области защиты.
- Мы работаем с государственными партнерами, чтобы помочь защитить критически важную инфраструктуру для населения. Вместе мы изучаем, как передовые технологии искусственного интеллекта могут поддержать работу по защите, проводимую доверенными должностными лицами, отвечающими за системы, на которые полагаются люди, от цифровых систем, обеспечивающих безопасность важных данных налогоплательщиков, до электросетей и водоснабжения в местных сообществах.
В рамках нашей системы обеспечения готовности мы оцениваем возможности GPT-5.5 в области биологической/химической защиты и кибербезопасности как высокие (открывается в новом окне) . Хотя GPT-5.5 не достиг критического уровня кибербезопасности, наши оценки и тестирование показали, что его возможности в области кибербезопасности на шаг выше по сравнению с GPT-5.4.
Кроме того, перед выпуском GPT-5.5 прошел полный цикл проверки безопасности и управления, включая оценку готовности, тестирование в конкретных областях, новые целевые оценки возможностей в области передовых биологических технологий и кибербезопасности, а также тщательное тестирование с участием внешних экспертов. Более подробная информация представлена в карточке системы GPT-5.5 (открывается в новом окне) .
Эта работа отражает наш более широкий подход к обеспечению устойчивости ИИ, который, по нашему мнению, необходим по мере развития возможностей моделей. Мы хотим, чтобы мощный ИИ был доступен тем, кто использует его для защиты систем, учреждений и общественности. Жизнеспособный путь — это доверительный доступ, надежные средства защиты, масштабируемые по мере развития возможностей, и оперативные возможности для обнаружения и реагирования на серьезные злоупотребления.
Наличие и цены
Сегодня GPT-5.5 становится доступен пользователям Plus, Pro, Business и Enterprise в ChatGPT и Codex, а GPT-5.5 Pro — пользователям Pro, Business и Enterprise в ChatGPT. Вскоре мы добавим GPT-5.5 и GPT-5.5 Pro в API.
В ChatGPT GPT-5.5 Thinking доступен пользователям Plus, Pro, Business и Enterprise. GPT-5.5 Pro, разработанный для решения еще более сложных задач и обеспечения более высокой точности, доступен пользователям Pro, Business и Enterprise.
В Codex GPT-5.5 доступен для тарифных планов Plus, Pro, Business, Enterprise, Edu и Go с контекстным окном в 400 000 токенов. GPT-5.5 также доступен в быстром режиме, генерируя токены в 1,5 раза быстрее и с удвоенной стоимостью.
Для разработчиков API gpt-5.5 скоро будет доступен в API ответов и завершения чатов по цене 5 долларов за 1 миллион входных токенов и 30 долларов за 1 миллион выходных токенов с контекстным окном в 1 миллион. Пакетная и гибкая обработка доступны по цене вдвое ниже стандартной ставки API, а приоритетная обработка — по цене в 2,5 раза выше стандартной. Мы также выпустим gpt-5.5-pro в API для еще большей точности по цене 30 долларов за 1 миллион входных токенов и 180 долларов за 1 миллион выходных токенов. Подробную информацию смотрите на странице с ценами .
Хотя GPT-5.5 стоит дороже, чем GPT-5.4, он одновременно и интеллектуальнее, и гораздо эффективнее с точки зрения использования токенов. В Codex мы тщательно настроили пользовательский интерфейс, чтобы GPT-5.5 обеспечивал лучшие результаты при меньшем количестве токенов для большинства пользователей, чем GPT-5.4, при этом сохраняя щедрые возможности использования на всех уровнях подписки.
Оценки
Программирование
|
Оценка |
ГПТ-5.5 |
ГПТ-5.4 |
GPT-5.5 Pro |
GPT‑5.4 Pro |
Клод Опус 4.7 |
Gemini 3.1 Pro |
|
SWE-Bench Pro (публичная версия) * |
58,6% |
57,7% |
— |
— |
64,3% |
54,2% |
|
Терминальный стенд 2.0 |
82,7% |
75,1% |
— |
— |
69,4% |
68,5% |
|
Эксперт-программист (внутренний) |
73,1% |
68,5% |
— |
— |
— |
— |
*В ходе лабораторных исследований были зафиксированы признаки запоминания (открывается в новом окне) в ходе данного исследования.
Профессиональный
|
Оценка |
ГПТ-5.5 |
ГПТ-5.4 |
GPT-5.5 Pro |
GPT‑5.4 Pro |
Клод Опус 4.7 |
Gemini 3.1 Pro |
|
ВВПval (победы или ничьи) |
84,9% |
83,0% |
82,3% |
82,0% |
80,3% |
67,3% |
|
FinanceAgent v1.1 |
60,0% |
56,0% |
— |
61,5% |
64,4% |
59,7% |
|
Задачи моделирования в инвестиционном банкинге (внутренние) |
88,5% |
87,3% |
88,6% |
83,6% |
— |
— |
|
OfficeQA Pro |
54,1% |
53,2% |
— |
— |
43,6% |
18,1% |
Использование компьютеров и компьютерное зрение
|
Оценка |
ГПТ-5.5 |
ГПТ-5.4 |
GPT-5.5 Pro |
GPT‑5.4 Pro |
Клод Опус 4.7 |
Gemini 3.1 Pro |
|
Проверено OSWorld |
78,7% |
75,0% |
— |
— |
78,0% |
— |
|
MMMU Pro (без инструментов) |
81,2% |
81,2% |
— |
— |
— |
80,5% |
|
MMMU Pro (с инструментами) |
83,2% |
82,1% |
— |
— |
— |
— |
Использование инструментов
|
Оценка |
ГПТ-5.5 |
ГПТ-5.4 |
GPT-5.5 Pro |
GPT‑5.4 Pro |
Клод Опус 4.7 |
Gemini 3.1 Pro |
|
BrowseComp |
84,4% |
82,7% |
90,1% |
89,3% |
79,3% |
85,9% |
|
Атлас MCP** |
75,3% |
70,6% |
— |
— |
79,1% |
78,2% |
|
Туатлон |
55,6% |
54,6% |
— |
— |
— |
48,8% |
|
Tau2-bench Telecom*** |
98,0% |
92,8% |
— |
— |
— |
— |
** MCP Atlas: результаты Scale AI после последнего обновления в апреле 2026 года.
*** Результаты теста Tau2-bench telecom для версий 5.5 и 5.4 с исходными подсказками, т.е. без корректировки подсказок. В этот список не включены результаты других лабораторий, которые оценивались с корректировкой подсказок.
Академический
|
Оценка |
ГПТ-5.5 |
ГПТ-5.4 |
GPT-5.5 Pro |
GPT‑5.4 Pro |
Клод Опус 4.7 |
Gemini 3.1 Pro |
|
GeneBench |
25,0% |
19,0% |
33,2% |
25,6% |
— |
— |
|
FrontierMath, уровни 1–3 |
51,7% |
47,6% |
52,4% |
50,0% |
43,8% |
36,9% |
|
FrontierMath Уровень 4 |
35,4% |
27,1% |
39,6% |
38,0% |
22,9% |
16,7% |
|
БиксБенч |
80,5% |
74,0% |
— |
— |
— |
— |
|
GPQA Diamond |
93,6% |
92,8% |
— |
94,4% |
94,2% |
94,3% |
|
Последний экзамен человечества (без инструментов) |
41,4% |
39,8% |
43,1% |
42,7% |
46,9% |
44,4% |
|
Последний экзамен человечества (с инструментами) |
52,2% |
52,1% |
57,2% |
58,7% |
54,7% |
51,4% |
Кибербезопасность
|
Оценка |
ГПТ-5.5 |
ГПТ-5.4 |
GPT-5.5 Pro |
GPT‑5.4 Pro |
Клод Опус 4.7 |
Gemini 3.1 Pro |
|
Задания для игры «Захват флагов» (внутренние)**** |
88,1% |
83,7% |
— |
— |
— |
— |
|
Киберспортзал |
81,8% |
79,0% |
— |
— |
73,1% |
— |
**** Расширенная версия самых сложных CTF-соревнований, используемых на системных картах, с добавлением дополнительных сложных заданий.
Длинный контекст
|
Оценка |
ГПТ-5.5 |
ГПТ-5.4 |
GPT-5.5 Pro |
GPT‑5.4 Pro |
Клод Опус 4.7 |
Gemini 3.1 Pro |
|
Graphwalks BFS 256k f1 |
73,7% |
62,5% |
— |
— |
76,9% |
— |
|
Graphwalks BFS 1mil f1 |
45,4% |
9,4% |
— |
— |
41,2% (Opus 4,6) |
— |
|
Graphwalks parents 256k f1 |
90,1% |
82,8% |
— |
— |
93,6% |
— |
|
Graphwalks parents 1mil f1 |
58,5% |
44,4% |
— |
— |
72,0% (Opus 4,6) |
— |
|
OpenAI MRCR v2 8-игольный 4K-8K |
98,1% |
97,3% |
— |
— |
— |
— |
|
OpenAI MRCR v2 8-игольный 8K-16K |
93,0% |
91,4% |
— |
— |
— |
— |
|
OpenAI MRCR v2 8-игольный 16K-32K |
96,5% |
97,2% |
— |
— |
— |
— |
|
OpenAI MRCR v2 8-игольный 32K-64K |
90,0% |
90,5% |
— |
— |
— |
— |
|
OpenAI MRCR v2 8-игольный 64K-128K |
83,1% |
86,0% |
— |
— |
— |
— |
|
OpenAI MRCR v2 8-игольный 128K-256K |
87,5% |
79,3% |
— |
— |
59,2% |
— |
|
OpenAI MRCR v2 8-игольный 256K-512K |
81,5% |
57,5% |
— |
— |
— |
— |
|
OpenAI MRCR v2 8-игольный 512K-1M |
74,0% |
36,6% |
— |
— |
32,2% |
— |
Абстрактное рассуждение
|
Оценка |
ГПТ-5.5 |
ГПТ-5.4 |
GPT-5.5 Pro |
GPT‑5.4 Pro |
Клод Опус 4.7 |
Gemini 3.1 Pro |
|
ARC-AGI-1 (проверено) |
95,0% |
93,7% |
— |
94,5% |
93,5% |
98,0% |
|
ARC-AGI-2 (проверено) |
85,0% |
73,3% |
— |
83,3% |
75,8% |
77,1% |
Оценка GPT проводилась с уровнем сложности рассуждений xhigh и в исследовательской среде, что в некоторых случаях может дать несколько иные результаты по сравнению с ChatGPT, используемым в производственной среде.
Источник: openai.com

Добавить комментарий
Для отправки комментария вам необходимо авторизоваться.