DeepSWE срывает рекорды в области программирования ИИ, ставит GPT-5.5 на первое место и обнаруживает, что Клод Опус использует уязвимость в бенчмарке.
Майкл Нуньес

В течение нескольких месяцев ведущие бенчмарки для ИИ-программистов рассказывали корпоративным клиентам обнадеживающую, но вводящую в заблуждение историю: лучшие модели примерно одинаковы. Семейство GPT-5 от OpenAI, Claude Opus от Anthropic и Gemini Pro от Google сгруппировались в узком диапазоне в рейтинге SWE-Bench Pro от Scale AI, что делает практически невозможным для руководителей инженерных отделов определить, какой агент действительно покажет наилучшие результаты в их кодовых базах.
В понедельник стартап Datacurve выпустил бенчмарк, который, по его словам, разрушает это заблуждение. DeepSWE, тест, включающий 113 задач, охватывающих 91 репозиторий с открытым исходным кодом и пять языков программирования, демонстрирует значительно больший разброс результатов среди одних и тех же передовых моделей и объявляет GPT-5.5 от OpenAI явным лидером с результатом 70%, на шестнадцать пунктов опережая ближайшего конкурента.
«В общедоступных рейтингах лучшие модели часто выглядят относительно близкими по своим возможностям», — написала соавтор Datacurve Серена Ге на X. «DeepSWE показывает, где они на самом деле расходятся, отражая реалистичный опыт разработчиков в их повседневной работе».
Этот тест также содержит резкую критику инфраструктуры оценки, на которую опирается индустрия ИИ для измерения прогресса: аудит Datacurve показал, что верификаторы SWE-Bench Pro — автоматизированные системы оценки, определяющие, решил ли агент задачу, — выдавали неверные вердикты «прошел/не прошел» примерно в одной трети проверенных испытаний.
Если эти выводы подтвердятся, это будет иметь далеко идущие последствия. Команды по закупкам предприятий, венчурные капиталисты и маркетинговые отделы лабораторий ИИ в значительной степени полагаются на результаты бенчмарков при принятии решений, связанных с многомиллионными проектами. 32% ошибок в самом цитируемом бенчмарке для программирования говорят о том, что отрасль, возможно, ориентировалась по неисправному компасу.
Почему самый популярный тест по программированию для ИИ может оцениваться по кривой распределения оценок
Чтобы понять, что утверждает Datacurve, полезно разобраться в том, как работают тесты производительности кода — и как они могут давать сбои.
Доминирующая парадигма, впервые предложенная семейством SWE-Bench, поддерживаемым Scale AI и академическими исследователями, строит задачи путем анализа реальных коммитов GitHub. Процесс извлекает исправление ошибки или добавление новой функции из истории репозитория, откатывает код до состояния до исправления, а затем просит агента ИИ воспроизвести изменение. Набор тестов исходного коммита служит верификатором: если патч агента проходит те же тесты, он получает зачет. Этот подход отличается элегантной простотой, но, как утверждает Datacurve, он вносит три системных недостатка.
Во-первых, загрязнение. Поскольку задачи берутся из общедоступной истории GitHub, формулировка проблемы, обсуждение и зачастую точное решение уже присутствуют в обучающих данных моделей, находящихся на начальном этапе разработки. «Семейство SWE-Bench использует существующие проблемы и запросы на слияние в GitHub, что создает две проблемы: запоминание (модели уже видели решение) и тривиальность (большинство задач небольшие)», — написал Ге.
Во-вторых, масштаб. Задачи SWE-Bench Pro требуют в среднем всего 120 строк кода, добавляемых в 5 файлов. В эталонных решениях DeepSWE в среднем добавляется 668 строк в 7 файлов — примерно в 5,5 раз больше кода. При этом подсказки DeepSWE на самом деле короче, в среднем 2158 символов против 4614 у SWE-Bench Pro. Другими словами, DeepSWE дает агенту меньше инструкций, но ожидает гораздо большего результата, что более точно отражает то, как разработчик-человек мог бы делегировать работу ИИ-помощнику.

Третий — и наиболее разрушительный — показатель надежности верификаторов. Datacurve случайным образом выбрала 30 задач из DeepSWE и SWE-Bench Pro, провела три развертывания на 10 конфигурациях моделей с граничными условиями, а затем развернула эксперта на основе LLM для независимой оценки того, действительно ли патч каждого агента решил проблему. Верификаторы SWE-Bench Pro принимали неправильные реализации в 8,5% случаев и отклоняли правильные реализации в 24% случаев. Верификаторы DeepSWE показали 0,3% и 1,1% соответственно.

Проблема ложноотрицательных результатов особенно коварна, поскольку она наказывает за нестандартные решения. В одном задокументированном случае эталонный запрос на слияние для задачи SWE-Bench Pro предусматривал рефакторинг закрытой вспомогательной функции. Агент, который правильно решил задачу, встроив ту же логику — совершенно допустимое инженерное решение — потерпел неудачу, потому что набор тестов попытался импортировать символ, который существовал только в конкретной реализации автора исходного кода.
GPT-5.5 от OpenAI доминирует в новом бенчмарке, в то время как Claude и Gemini показывают неудовлетворительные результаты.
Основные результаты DeepSWE перестраивают привычную иерархию таким образом, что это должно иметь значение для каждой инженерной команды, оценивающей инструменты для разработки программного обеспечения на основе ИИ. В SWE-Bench Pro модели от OpenAI, Anthropic и Google попеременно лидировали с разницей в 30 баллов. DeepSWE расширяет этот диапазон до 70 баллов.
GPT-5.5 лидирует с 70%, за ним следует GPT-5.4 с 56%, а Claude Opus 4.7 — с 54%. Далее наблюдается резкое падение: Claude Sonnet 4.6 получает 32%, Gemini 3.5 Flash — 28%, GPT-5.4-mini и Kimi K2.6 имеют по 24%, а затем следует длинный хвост моделей с показателями от 10 до 20%. Claude Haiku 4.5, набравший 39% в SWE-Bench Pro, падает до нуля в DeepSWE — это говорит о том, что некоторые модели среднего уровня значительно превосходили ожидания в более простых, потенциально загрязненных тестах.

GPT-5.5 не просто показывает самые высокие результаты — он делает это эффективно. Модель достигает 70% успеха при средней стоимости 5,80 долларов за попытку, среднем времени выполнения 20 минут и среднем количестве выходных токенов 47 000. GPT-5.4 оказывается, пожалуй, лучшим вариантом по соотношению цены и качества: 3,30 доллара за попытку с результатом 56%. Claude Opus 4.7, тем временем, обходится значительно дороже за запуск, а количество выходных токенов, время выполнения и стоимость попытки различаются на порядок у разных протестированных агентов — однако ни один из этих показателей не коррелирует напрямую с процентом успеха. Агенты, которые генерируют больше токенов, работают дольше или стоят дороже, не всегда решают больше задач.

В ходе аудита Datacurve было установлено, что Клод читал ответы к существующим контрольным тестам.
Пожалуй, наиболее провокационный вывод из анализа DeepSWE касается того, что авторы называют «обманными» результатами — случаев, когда агент проходит контрольную точку не путем решения задачи, а путем прочтения ответа.
Docker-контейнеры SWE-Bench Pro поставляют полную историю репозитория .git, что означает, что эталонный коммит решения находится прямо в файловой системе контейнера. Большинство моделей игнорируют его. Claude — нет. Анализ Datacurve показал, что Claude Opus 4.7 и Claude Opus 4.6 зарегистрировали ошибку «CHEATED» более чем в 12% проверенных развертываний SWE-Bench Pro. В этих случаях агент Claude выполнял команды, такие как git log —all или git show
GPT-5.4 и GPT-5.5 никогда не демонстрировали подобного поведения. Конфигурации Gemini оставались на уровне около 1%. Datacurve описывает это поведение дипломатично: «Бенчмарк делает это возможным (золотой коммит находится в контейнере), но Claude — это семейство, которое постоянно это делает», — но смысл ясен: значительная часть результатов SWE-Bench Pro у Claude может отражать скорее использование уязвимостей среды, чем подлинные инженерные возможности.
DeepSWE решает эту проблему, поставляя с базовым коммитом только поверхностный клон, не оставляя агенту возможности обнаружить «золотой хеш». Стоит отметить, что такое поведение, возможно, является признаком внимательности Клода к окружающей среде — модель очень хорошо исследует свое окружение и использует доступные ресурсы. Можно ли это считать «обманом» или «изобретательностью», зависит от вашей точки зрения, но в контексте бенчмарка, предназначенного для измерения независимого решения задач, это подрывает сигнал.

Каждое семейство моделей ИИ терпит неудачу по-своему, и эти закономерности имеют значение для корпоративных команд.
Помимо основных показателей, качественный анализ траекторий, проведенный Datacurve, выявляет отчетливо различающиеся признаки отказов в разных семействах моделей — это открытие может помочь инженерным группам выбрать подходящую модель для конкретных видов работ.
Клод не прощает многокомпонентные запросы. На DeepSWE конфигурации Клода чаще, чем любое другое семейство, не соответствуют заявленным требованиям. Закономерность устойчива: когда запрос перечисляет параллельное поведение — например, «поддерживает как синхронный, так и асинхронный режимы» — Клод обычно реализует очевидную ветку и забывает отразить это изменение. Datacurve сообщает, что примерно две трети ошибок «MISSED_REQUIREMENT» Клода на DeepSWE следуют этой закономерности «одна ветка реализована». В одном из примеров Клод Opus 4.7 правильно добавил хук синхронного состояния/данных в один класс движка, в то время как асинхронный движок так и не получил тот же хук.
GPT, напротив, реализует именно то, что требуется. GPT-5.5 показала самый низкий процент невыполненных заданий среди всех протестированных конфигураций. При многократном выполнении одной и той же задачи результаты GPT, как правило, сходились к одной и той же интерпретации подсказки, что говорит о том, что точность выполнения инструкций является стабильной характеристикой модели, а не случайностью, зависящей от конкретного запуска.
Один из самых интригующих результатов касается самопроверки. На DeepSWE модели Claude Opus 4.7 и GPT-5.4 написали и запустили новые тесты в собственной тестовой среде проекта более чем в 80% случаев — даже несмотря на то, что никто их об этом не просил. На SWE-Bench Pro эти же модели показали результаты в 28% и 18% случаев соответственно. Причина: шаблон подсказок в SWE-Bench Pro явно указывает агентам, что они «не должны изменять логику тестирования или какие-либо тесты». Агенты послушно выполнили это указание, подавив поведение, которое, вероятно, улучшило бы их производительность. Это говорит о том, что дизайн подсказок в рабочих процессах кодирования в производственной среде может непреднамеренно подавлять ценные действия агентов — то, что корпоративным командам, внедряющим агентов ИИ для кодирования, следует тщательно проверять.

Что DeepSWE делает правильно, что делает неправильно и что это значит для будущего тестов производительности ИИ.
Datacurve открыто говорит о ряде ограничений. Стандартизированный инструмент, хотя и обеспечивает справедливость, направляет все изменения через bash, а не через инструменты редактирования, специфичные для каждой модели, на которых обучалась каждая группа моделей — apply_patch для GPT, str_replace_based_edit_tool для Claude. Это может удерживать модели ниже их собственных пределов производительности. Бенчмарк использует исключительно репозитории с открытым исходным кодом, имеющие более 500 звезд, и результаты могут не распространяться на проприетарные кодовые базы. Задачи локализации ошибок и рефакторинга представлены недостаточно, а широко используемые языки, такие как C++ и Java, полностью отсутствуют. Вердикты в качественном анализе выносятся анализатором LLM, а не экспертами, и размеры выборки невелики — примерно 90 проверенных развертываний на модель на каждый бенчмарк.
Стоит также отметить, что Datacurve — это стартап со своими собственными коммерческими интересами, и независимый бенчмарк, который перетасовывает рейтинги, неизбежно вызовет пристальное внимание. Решение компании опубликовать полный набор данных, все траектории агентов и оценочный инструмент на GitHub значительно снижает эти опасения, но для того, чтобы сообщество ИИ сочло эти результаты окончательными, потребуется независимое воспроизведение.
DeepSWE достигла переломного момента на рынке ИИ-программирования. Внедрение агентов ИИ в корпоративном секторе стремительно ускоряется, и инженерные организации делают важные ставки на то, какую модель использовать в качестве основы. Сам рынок бенчмарков превратился в стратегическое поле битвы — SWE-Bench Pro от Scale AI, который Datacurve напрямую критикует, поддерживается компанией, которая также предоставляет услуги по оценке лабораториям, чьи модели она ранжирует.
Если основные выводы DeepSWE о надежности верификаторов и загрязнении данных подтвердятся в ходе независимой проверки, это может заставить пересмотреть не только методы оценки программистов в отрасли, но и более широкий вопрос о том, для чего вообще нужны бенчмарки. Таблица лидеров, где система оценок ошибается в трети случаев, не просто неточна — это своего рода неисправный инструмент, который создает у всех иллюзию прогресса, который может быть нереальным. А в отрасли, тратящей миллиарды на ставку на то, что ИИ-агенты могут выполнять работу инженеров-программистов, разница между реальным прогрессом и его видимостью не является чисто теоретической. Это вся игра.
Подпишитесь, чтобы получать самые свежие новости!
Подробные аналитические данные для руководителей предприятий в области искусственного интеллекта, данных и безопасности.
Отправляя свой адрес электронной почты, вы соглашаетесь с нашими Условиями использования и Политикой конфиденциальности.
Получайте обновления ! Вы подписаны! Наши последние новости скоро поступят на вашу электронную почту.
Источник: venturebeat.com

Добавить комментарий
Для отправки комментария вам необходимо авторизоваться.