Неожиданная победа: GPT-5.5 превзошла Claude Fable 5 в новом, невероятно сложном тесте Agents' Last Exam.

11.06.2026 ideipro.ru

Карл Франзен

OpenAI занимает лидирующие позиции в гору электронных отходов, в то время как Anthropic испытывает трудности в нижней части этой горы.

Исследователи из Центра ответственного децентрализованного интеллекта (RDI) Калифорнийского университета в Беркли, совместно с консультативным комитетом, состоящим из более чем 300 экспертов в данной области, запустили Agents' Last Exam (ALE) — новый сложный тест, призванный оценить, способен ли искусственный интеллект фактически выполнять экономически ценные, долгосрочные профессиональные рабочие процессы.

В неожиданном повороте событий, модель GPT-5.5 от OpenAI, выпущенная в апреле и работающая через систему Codex, заняла первое место в новом рейтинге ALE Leaderboard с показателем успешного прохождения теста в 24%, обогнав долгожданную новую модель Claude Fable 5 класса Mythos от Anthropic, выпущенную вчера, которая заняла третье место с результатом 22,0%.

Вместо того чтобы тестировать модели на отдельных задачах программирования, ALE специально разработан как инструмент для сокращения разрыва между академическим ажиотажем и реальным, имеющим отношение к ВВП влиянием на рынок труда. И прямо сейчас данные доказывают, что самые передовые модели в мире принципиально не справляются с этой задачей.

Покончим с эпохой «мошенничества» и некачественной оценки работ.

Фундаментальные изменения в ALE заключаются в архитектуре оценки и требованиях, которые она предъявляет к агенту.

Исторически сложилось так, что в тестах производительности ИИ использовались статические системы вопросов и ответов или узкие текстовые терминалы. Более поздние оценки эффективности агентных систем ввели многоэтапное взаимодействие, но столкнулись с серьезными проблемами при выставлении оценок.

Как отмечалось в недавних независимых проверках старых рейтинговых таблиц, таких как SWE-Bench Pro, автоматизированные верификаторы часто отклоняют правильные решения, а некоторые модели — в частности, семейство Claude Opus — были уличены в «мошенничестве» путем чтения скрытых ключей ответов в истории Git контейнера вместо решения основной задачи.

ALE нейтрализует эти лазейки, заставляя модели соответствовать строгой структуре универсального агента использования компьютера (GCUA). Для прохождения проверки агент не может просто выполнять команды терминала.

Эталонная оценка отражает возможности на пяти функциональных уровнях: мозг (рассуждение), глаза (визуальное восприятие), тело (организация), руки (вызов инструментов) и ноги (среда выполнения).

Агент должен использовать свои «глаза» и «руки» для навигации по виртуальным машинам Linux или Windows, чередуя написание сценариев командной оболочки с операциями «наведи и щелкни» внутри ресурсоемкого настольного программного обеспечения.

Что особенно важно, ALE практически полностью отвергает непредсказуемую парадигму оценки «магистр права как судья», используя ее лишь в 6,8% своих рабочих процессов. Если задача включает в себя генерацию 3D-сетки или анализ документов SEC, бенчмарк использует детерминированную оценку на основе кода для сравнения артефакта агента с эталонным значением эксперта.

Оценка эффективности выполнения задач в 55 отраслях

ALE запускается с 1490 экземплярами задач и планирует масштабироваться до 5000 задач. Примечательность продукта заключается в его достоверности. Задачи строго соответствуют федеральной классификации профессий США (O*NET / SOC 2018) и охватывают 55 нефизических отраслевых поддоменов.

Рабочие процессы взяты непосредственно из профессионального опыта специалистов отрасли. Агентам предлагается выполнять создание 3D-моделей в Siemens NX, настройку сцены в Unreal Engine, нейровизуализационный анализ в FSLeyes и композитинг визуальных эффектов в Adobe After Effects.

При работе с такими реальными, долгосрочными рабочими процессами ограничения современного ИИ становятся очевидными. ALE делит свои задачи на три уровня сложности: краткосрочные, комплексные и итоговые.

Топ-5 ремней безопасности Agentic в рейтинге ALE.

Классифицировать	Агент Харнесс	Базовая модель	Процент сдачи	Средний балл
1	Кодекс	gpt-5-5	24,0%	42,8%
2	Эль Клоу	gpt-5-5	23,0%	45,8%
3	Кодекс Клода	басня-Клода-5	22,0%	40,5%
4	OpenClaw	gpt-5-5	21,1%	41,0%
5	Интерфейс командной строки курсора	композитор-2-5	20,4%	38,5%

Победа GPT-5.5 согласуется с недавним анализом сторонних экспертов, предполагающим, что модели OpenAI в настоящее время превосходят другие в строгом соблюдении многокомпонентных, сложных запросов. В свою очередь, пользователи сообщают, что архитектура Claude от Anthropic иногда может «забывать» многокомпонентные инструкции, прерывая необходимые шаги в середине рабочего процесса — это фатальный недостаток строгого конвейера ALE.

И хотя достижения показателя успешной сдачи экзамена в 24,0% достаточно для завоевания титула, абсолютный потолок производительности остается на удивление низким.

На самом сложном уровне, напоминающем «последний экзамен» — представляющем собой границу профессиональной сложности — большинство конфигураций, включая более старую версию Claude Opus 4.8 от Anthropic и Gemini CLI от Google, демонстрируют катастрофически низкий процент успешного прохождения — 0,0%.

Решение проблемы загрязнения эталонных образцов

Ключевой уязвимостью в современной оценке ИИ является «загрязнение эталонными данными» — явление, при котором тестовые вопросы неизбежно проникают в огромные массивы данных, используемые для обучения моделей следующего поколения. Как только модель запоминает эталонные данные, оценка становится совершенно бесполезной.

ALE решает эту проблему с помощью стратегии развертывания двойного назначения. Проект функционирует как исследовательская инициатива с открытым исходным кодом, но при этом тщательно скрывает данные оценки. Только около 10% набора данных (примерно 150 задач) публикуется на таких платформах, как GitHub и Hugging Face. Остальные более 1300 задач остаются строго конфиденциальными.

Для разработчиков и корпоративных оценщиков это означает, что ALE функционирует как «живой эталон». Частные задачи систематически переходят в общий пул с течением времени, а выведенные из эксплуатации публичные задачи заменяются.

Поэтапный выпуск обновлений гарантирует, что поверхность оценки останется незагрязненной при переходе от одного поколения модели к другому, что дает корпоративным покупателям уверенность в том, что высокий балл агента заработан , а не заучен наизусть.

Кроме того, ALE обеспечивает прозрачность, отслеживая результаты как в «полном», так и в «нелицензионном» режимах. Поскольку реальная профессиональная работа часто требует платного проприетарного программного обеспечения, в таблицу лидеров «Полный» включены задачи, которые используют коммерческие инструменты САПР, платные API или лицензированные наборы данных.

В категории «Без лицензии» исключаются задачи, требующие лицензирования, что обеспечивает корректное сравнение с использованием только бесплатных инструментов, гарантируя, что модели не получают вознаграждение просто за доступ к платному корпоративному программному обеспечению.

Итог: ALE показывает, что даже у самых высокоэффективных моделей и ремней безопасности есть потенциал для улучшения.

Для разработчиков, разочарованных разрывом между маркетинговыми заявлениями и реальной производительностью в производственной среде, жесткая кривая оценок ALE является весьма показательной. Цзэнъи Цинь, аспирант Массачусетского технологического института и участник проекта, предоставляющий данные, объявил о запуске проекта на платформе X, поделившись изображениями статьи и впечатляющим списком из более чем 100 учреждений, внесших свой вклад.

«Представляем Agents' Last Exam (ALE)», — написал Цинь. «Разработан более чем 300 экспертами из более чем 100 организаций. Охватывает 55 отраслевых областей. Claude Opus 4.8 имеет 0,0% успешной сдачи по самому сложному подмножеству. Рад, что внес свой вклад в этот эталон».

В последующем посте, в котором была указана ссылка на статью Hugging Face на ArXiv, Цинь добавил:

«Очень качественная работа руководителей проекта @YiyouSun @Xinyang_Han_ @dawnsongtweets и @BerkeleyRDI».

Поскольку компании вкладывают миллиарды долларов капитала, делая ставку на агентов искусственного интеллекта, им крайне необходим компас, указывающий верное направление. Если агент в конечном итоге сможет преодолеть испытание «Последнего экзамена агентов», он не просто сдаст тест — он докажет свою готовность присоединиться к рабочей силе. До тех пор отрезвляющие показатели успешной сдачи экзаменов в рейтинге служат необходимой проверкой реальности для всей экосистемы ИИ.

Подпишитесь, чтобы получать самые свежие новости!

Подробные аналитические данные для руководителей предприятий в области искусственного интеллекта, данных и безопасности.

VB Daily AI Weekly Еженедельник AGI Еженедельник по безопасности Еженедельник по инфраструктуре данных Мероприятия VB Все они

Отправляя свой адрес электронной почты, вы соглашаетесь с нашими Условиями использования и Политикой конфиденциальности.

Получайте обновления ! Вы подписаны! Наши последние новости скоро поступят на вашу электронную почту.

Источник: venturebeat.com

Оцените материал:

Оставить комментарий Отменить ответ

Для отправки комментария вам необходимо авторизоваться.

Неожиданная победа: GPT-5.5 превзошла Claude Fable 5 в новом, невероятно сложном тесте Agents' Last Exam.

Покончим с эпохой «мошенничества» и некачественной оценки работ.

Оценка эффективности выполнения задач в 55 отраслях

Топ-5 ремней безопасности Agentic в рейтинге ALE.

Решение проблемы загрязнения эталонных образцов

Итог: ALE показывает, что даже у самых высокоэффективных моделей и ремней безопасности есть потенциал для улучшения.

Подпишитесь, чтобы получать самые свежие новости!

Оставить комментарий Отменить ответ

🤖 Нельсон AI

Гайды, руководства и полезные статьи

Покончим с эпохой «мошенничества» и некачественной оценки работ.

Оценка эффективности выполнения задач в 55 отраслях

Топ-5 ремней безопасности Agentic в рейтинге ALE.

Решение проблемы загрязнения эталонных образцов

Итог: ALE показывает, что даже у самых высокоэффективных моделей и ремней безопасности есть потенциал для улучшения.

Подпишитесь, чтобы получать самые свежие новости!

Похожие записи

Похожие записи

В Москве вручат премию ученым, разработчикам и технологическим предпринимателям

Ученые разработали первую в России модель для планирования хмелеводства

Программа-вымогатель WantToCry удаленно шифрует файлы.

Оставить комментарий Отменить ответ

Присоединяйтесь и подпишитесь на рассылку самых свежих новостей по Email

🤖 Нельсон AI