Архив рубрики ~Лента новостей~

Неожиданная победа: GPT-5.5 превзошла Claude Fable 5 в новом, невероятно сложном тесте Agents' Last Exam.

Неожиданная победа: GPT-5.5 превзошла Claude Fable 5 в новом, невероятно сложном тесте Agents' Last Exam.

Карл Франзен

OpenAI занимает лидирующие позиции в гору электронных отходов, в то время как Anthropic испытывает трудности в нижней части этой горы.

Источник: VentureBeat, создано с помощью Google Nano Banana 2

Исследователи из Центра ответственного децентрализованного интеллекта (RDI) Калифорнийского университета в Беркли, совместно с консультативным комитетом, состоящим из более чем 300 экспертов в данной области, запустили Agents' Last Exam (ALE) — новый сложный тест, призванный оценить, способен ли искусственный интеллект фактически выполнять экономически ценные, долгосрочные профессиональные рабочие процессы.

В неожиданном повороте событий, модель GPT-5.5 от OpenAI, выпущенная в апреле и работающая через систему Codex, заняла первое место в новом рейтинге ALE Leaderboard с показателем успешного прохождения теста в 24%, обогнав долгожданную новую модель Claude Fable 5 класса Mythos от Anthropic, выпущенную вчера, которая заняла третье место с результатом 22,0%.

Вместо того чтобы тестировать модели на отдельных задачах программирования, ALE специально разработан как инструмент для сокращения разрыва между академическим ажиотажем и реальным, имеющим отношение к ВВП влиянием на рынок труда. И прямо сейчас данные доказывают, что самые передовые модели в мире принципиально не справляются с этой задачей.

Полная таблица лидеров ALE

Полная таблица результатов ALE. Источник: Agents' Last Exam/UC Berkeley RDI

Таблица лидеров ALE

Таблица лидеров ALE. Источник: Agents' Last Exam/UC Berkeley RDI

Покончим с эпохой «мошенничества» и некачественной оценки работ.

Фундаментальные изменения в ALE заключаются в архитектуре оценки и требованиях, которые она предъявляет к агенту.

Исторически сложилось так, что в тестах производительности ИИ использовались статические системы вопросов и ответов или узкие текстовые терминалы. Более поздние оценки эффективности агентных систем ввели многоэтапное взаимодействие, но столкнулись с серьезными проблемами при выставлении оценок.

Как отмечалось в недавних независимых проверках старых рейтинговых таблиц, таких как SWE-Bench Pro, автоматизированные верификаторы часто отклоняют правильные решения, а некоторые модели — в частности, семейство Claude Opus — были уличены в «мошенничестве» путем чтения скрытых ключей ответов в истории Git контейнера вместо решения основной задачи.

ALE нейтрализует эти лазейки, заставляя модели соответствовать строгой структуре универсального агента использования компьютера (GCUA). Для прохождения проверки агент не может просто выполнять команды терминала.

Эталонная оценка отражает возможности на пяти функциональных уровнях: мозг (рассуждение), глаза (визуальное восприятие), тело (организация), руки (вызов инструментов) и ноги (среда выполнения).

Агент должен использовать свои «глаза» и «руки» для навигации по виртуальным машинам Linux или Windows, чередуя написание сценариев командной оболочки с операциями «наведи и щелкни» внутри ресурсоемкого настольного программного обеспечения.

Что особенно важно, ALE практически полностью отвергает непредсказуемую парадигму оценки «магистр права как судья», используя ее лишь в 6,8% своих рабочих процессов. Если задача включает в себя генерацию 3D-сетки или анализ документов SEC, бенчмарк использует детерминированную оценку на основе кода для сравнения артефакта агента с эталонным значением эксперта.

Оценка эффективности выполнения задач в 55 отраслях

ALE запускается с 1490 экземплярами задач и планирует масштабироваться до 5000 задач. Примечательность продукта заключается в его достоверности. Задачи строго соответствуют федеральной классификации профессий США (O*NET / SOC 2018) и охватывают 55 нефизических отраслевых поддоменов.

Рабочие процессы взяты непосредственно из профессионального опыта специалистов отрасли. Агентам предлагается выполнять создание 3D-моделей в Siemens NX, настройку сцены в Unreal Engine, нейровизуализационный анализ в FSLeyes и композитинг визуальных эффектов в Adobe After Effects.

При работе с такими реальными, долгосрочными рабочими процессами ограничения современного ИИ становятся очевидными. ALE делит свои задачи на три уровня сложности: краткосрочные, комплексные и итоговые.

Топ-5 ремней безопасности Agentic в рейтинге ALE.

Классифицировать

Агент Харнесс

Базовая модель

Процент сдачи

Средний балл

1

Кодекс

gpt-5-5

24,0%

42,8%

2

Эль Клоу

gpt-5-5

23,0%

45,8%

3

Кодекс Клода

басня-Клода-5

22,0%

40,5%

4

OpenClaw

gpt-5-5

21,1%

41,0%

5

Интерфейс командной строки курсора

композитор-2-5

20,4%

38,5%

Победа GPT-5.5 согласуется с недавним анализом сторонних экспертов, предполагающим, что модели OpenAI в настоящее время превосходят другие в строгом соблюдении многокомпонентных, сложных запросов. В свою очередь, пользователи сообщают, что архитектура Claude от Anthropic иногда может «забывать» многокомпонентные инструкции, прерывая необходимые шаги в середине рабочего процесса — это фатальный недостаток строгого конвейера ALE.

И хотя достижения показателя успешной сдачи экзамена в 24,0% достаточно для завоевания титула, абсолютный потолок производительности остается на удивление низким.

На самом сложном уровне, напоминающем «последний экзамен» — представляющем собой границу профессиональной сложности — большинство конфигураций, включая более старую версию Claude Opus 4.8 от Anthropic и Gemini CLI от Google, демонстрируют катастрофически низкий процент успешного прохождения — 0,0%.

Решение проблемы загрязнения эталонных образцов

Ключевой уязвимостью в современной оценке ИИ является «загрязнение эталонными данными» — явление, при котором тестовые вопросы неизбежно проникают в огромные массивы данных, используемые для обучения моделей следующего поколения. Как только модель запоминает эталонные данные, оценка становится совершенно бесполезной.

ALE решает эту проблему с помощью стратегии развертывания двойного назначения. Проект функционирует как исследовательская инициатива с открытым исходным кодом, но при этом тщательно скрывает данные оценки. Только около 10% набора данных (примерно 150 задач) публикуется на таких платформах, как GitHub и Hugging Face. Остальные более 1300 задач остаются строго конфиденциальными.

Для разработчиков и корпоративных оценщиков это означает, что ALE функционирует как «живой эталон». Частные задачи систематически переходят в общий пул с течением времени, а выведенные из эксплуатации публичные задачи заменяются.

Поэтапный выпуск обновлений гарантирует, что поверхность оценки останется незагрязненной при переходе от одного поколения модели к другому, что дает корпоративным покупателям уверенность в том, что высокий балл агента заработан , а не заучен наизусть.

Кроме того, ALE обеспечивает прозрачность, отслеживая результаты как в «полном», так и в «нелицензионном» режимах. Поскольку реальная профессиональная работа часто требует платного проприетарного программного обеспечения, в таблицу лидеров «Полный» включены задачи, которые используют коммерческие инструменты САПР, платные API или лицензированные наборы данных.

В категории «Без лицензии» исключаются задачи, требующие лицензирования, что обеспечивает корректное сравнение с использованием только бесплатных инструментов, гарантируя, что модели не получают вознаграждение просто за доступ к платному корпоративному программному обеспечению.

Итог: ALE показывает, что даже у самых высокоэффективных моделей и ремней безопасности есть потенциал для улучшения.

Для разработчиков, разочарованных разрывом между маркетинговыми заявлениями и реальной производительностью в производственной среде, жесткая кривая оценок ALE является весьма показательной. Цзэнъи Цинь, аспирант Массачусетского технологического института и участник проекта, предоставляющий данные, объявил о запуске проекта на платформе X, поделившись изображениями статьи и впечатляющим списком из более чем 100 учреждений, внесших свой вклад.

«Представляем Agents' Last Exam (ALE)», — написал Цинь. «Разработан более чем 300 экспертами из более чем 100 организаций. Охватывает 55 отраслевых областей. Claude Opus 4.8 имеет 0,0% успешной сдачи по самому сложному подмножеству. Рад, что внес свой вклад в этот эталон».

В последующем посте, в котором была указана ссылка на статью Hugging Face на ArXiv, Цинь добавил:

«Очень качественная работа руководителей проекта @YiyouSun @Xinyang_Han_ @dawnsongtweets и @BerkeleyRDI».

Поскольку компании вкладывают миллиарды долларов капитала, делая ставку на агентов искусственного интеллекта, им крайне необходим компас, указывающий верное направление. Если агент в конечном итоге сможет преодолеть испытание «Последнего экзамена агентов», он не просто сдаст тест — он докажет свою готовность присоединиться к рабочей силе. До тех пор отрезвляющие показатели успешной сдачи экзаменов в рейтинге служат необходимой проверкой реальности для всей экосистемы ИИ.

Подпишитесь, чтобы получать самые свежие новости!

Подробные аналитические данные для руководителей предприятий в области искусственного интеллекта, данных и безопасности.

VB Daily AI Weekly Еженедельник AGI Еженедельник по безопасности Еженедельник по инфраструктуре данных Мероприятия VB Все они

Отправляя свой адрес электронной почты, вы соглашаетесь с нашими Условиями использования и Политикой конфиденциальности.

Получайте обновления ! Вы подписаны! Наши последние новости скоро поступят на вашу электронную почту.

Источник: venturebeat.com

✅ Найденные теги: Claude, GPT, Неожиданная, новости, Победа, Превзошла
Читайте также
Архив рубрики ~Коротко из Telegram~ Госдума приняла нормы, предусматривающие штрафы за нарушение новых требований к… Архив рубрики ~Обо всем~ Лучшие предложения на роботы-пылесосы в рамках Prime Day, которые я бы купил сейчас, после тестирования десятков вариантов. Архив рубрики ~Обо всем~ Мы профессионально отслеживаем выгодные предложения: вот лучшие предложения, которые нашли наши эксперты CNET на этой неделе. Архив рубрики ~Обо всем~ Как обучить модель оценки в эпоху искусственного интеллекта Архив рубрики ~Коротко из Telegram~ 🤖 Промышленным компаниям помогут внедрить ИИ На Архитектурном совете кластера… Архив рубрики ~Коротко из Telegram~ Шопоголикам выписали плацебо Любопытный тренд пришел из Южной Кореи. Там… Архив рубрики ~Коротко из Telegram~ Возвращаясь в мир без интернета Ozon Банк начал тестировать перевод… Архив рубрики ~Коротко из Telegram~ ♻️ Городские камеры подключат к борьбе с незаконными свалками NtechLab… Архив рубрики ~Коротко из Telegram~ Эксперты Data Insight выпустили новый рейтинг крупнейших интернет-магазинов России за… Архив рубрики ~Коротко из Telegram~ LLM delenda est или Язык до AGI не доведет Свежее… Архив рубрики ~Коротко из Telegram~ Обратил внимание, что ребята из Anthropic Institute (исследовательская лаба Антропиков)… Архив рубрики ~Коротко из Telegram~ Про Fable 5 еще. Сегодня уже была новость об этой… Архив рубрики ~Коротко из Telegram~ Pokémon Go помогал ловить покемонов, а теперь может помочь дронам… Архив рубрики ~Коротко из Telegram~ Учёные собрали полную карту нервной системы дрозофилы Исследователи полностью оцифровали… Архив рубрики ~Коротко из Telegram~ Госдума приняла нормы, предусматривающие штрафы за нарушение новых требований к… Архив рубрики ~Обо всем~ Лучшие предложения на роботы-пылесосы в рамках Prime Day, которые я бы купил сейчас, после тестирования десятков вариантов. Архив рубрики ~Обо всем~ Мы профессионально отслеживаем выгодные предложения: вот лучшие предложения, которые нашли наши эксперты CNET на этой неделе. Архив рубрики ~Обо всем~ Как обучить модель оценки в эпоху искусственного интеллекта Архив рубрики ~Коротко из Telegram~ 🤖 Промышленным компаниям помогут внедрить ИИ На Архитектурном совете кластера… Архив рубрики ~Коротко из Telegram~ Шопоголикам выписали плацебо Любопытный тренд пришел из Южной Кореи. Там… Архив рубрики ~Коротко из Telegram~ Возвращаясь в мир без интернета Ozon Банк начал тестировать перевод… Архив рубрики ~Коротко из Telegram~ ♻️ Городские камеры подключат к борьбе с незаконными свалками NtechLab… Архив рубрики ~Коротко из Telegram~ Эксперты Data Insight выпустили новый рейтинг крупнейших интернет-магазинов России за… Архив рубрики ~Коротко из Telegram~ LLM delenda est или Язык до AGI не доведет Свежее… Архив рубрики ~Коротко из Telegram~ Обратил внимание, что ребята из Anthropic Institute (исследовательская лаба Антропиков)… Архив рубрики ~Коротко из Telegram~ Про Fable 5 еще. Сегодня уже была новость об этой… Архив рубрики ~Коротко из Telegram~ Pokémon Go помогал ловить покемонов, а теперь может помочь дронам… Архив рубрики ~Коротко из Telegram~ Учёные собрали полную карту нервной системы дрозофилы Исследователи полностью оцифровали…

Оставить комментарий

Подписка на рассылку

Получайте свежие новости и идеи на почту. Без спама — только самое интересное.

Нажимая «Подписаться», вы соглашаетесь с политикой конфиденциальности.