Image

Иллюзия интеллекта: как живые тесты разоблачают ИИ-кодеров

77dc6180cea597672db0e493cd2a9664

Оценивать генерацию кода по красивым комментариям — это как смотреть на машину по буклету. В реальной жизни важнее, заведётся ли она, тормозит ли вовремя и удобно ли ей пользоваться. Авторы BigCodeArena предлагают именно такой практичный взгляд: их открытая платформа сравнивает решения больших языковых моделей (LLM) не по совпадению строк, а по запуску, интерактивности и поведению на экране. Пользователь видит двух анонимных соперников, запускает оба решения в песочнице, может кликать по интерфейсу, вводить данные, дебажить и только потом голосует за A, B, ничью или «обе плохи».

Интерфейс BigCodeArena: две стороны A/B, встроенный запуск, просмотр кода и голосование
Интерфейс BigCodeArena: две стороны A/B, встроенный запуск, просмотр кода и голосование

Зачем это нужно

Длинный код часто «кажется» правильным на глаз, но падает при запуске, сбоит в рантайме или не соответствует промту. Авторы эмпирически показывают: выполнение и интерактивность резко повышают надёжность суждений — как у людей, так и у LLM-судей. Это особенно заметно в задачах с UI, играх, веб-страницах, где важны динамика, обработка событий и мелкие детали UX.

Как устроена площадка

Пользовательский интерфейс собран на Gradio; сервер — модульная система E2B с изолированными песочницами. Поддерживается 10 языков (Python, JS/TS, HTML, C/C++, Java, Go, Rust, Markdown) и 8 окружений (React, Vue, Core Web, Streamlit, PyGame, Gradio, Mermaid, Interpreter). Система автоматически вытягивает код из markdown-блоков, ставит зависимости, компилирует/запускает и возвращает все артефакты: логи, скриншоты, интерактивный UI.

Обзор конвейера BigCodeArena
Обзор конвейера BigCodeArena

Есть парный режим (в духе Chatbot Arena) и односторонний — для проверки конкретной модели. Чтобы исключить «смещение скорости», результаты обеих сторон показываются только после завершения генерации и запуска. Пары моделей балансируются взвешенной выборкой: новичкам временно повышают вес, чтобы быстрее набрать статистику.

Что успели собрать

За 5+ месяцев — 14,123 сессии от 500+ уникальных IP. Из них выделено 4,731 многошаговых парных примеров с голосами предпочтений. У каждой из 10 моделей — не менее 700 голосов. Темы повторяются по шести направлениям: Web Design, Game Development, Diagram Creation, Creative Coding, Scientific Computing, Problem Solving. По данным видно доминирование Python и интерпретаторных сценариев, но UI-фреймворки тоже занимают крупную долю.

Распределение языков и фреймворков в собранных разговорах
Распределение языков и фреймворков в собранных разговорах

Как сравнивали модели

Голоса агрегируются через модель Брэдли—Терри с бутстрепом (100 повторов) и 95% доверительными интервалами. Рассматривали три режима: все данные; совпадает окружение; совпадает язык. Рейтинги согласованы между режимами. В живых голосованиях стабильно лидируют o3-mini и o1-mini; затем идёт Claude-3.5-Sonnet. Средний эшелон — GPT-4o, o1, Gemini-2.0-Pro/Flash; слабее — Qwen2.5 и Llama-3.3-70B. По языкам и средам картинка неоднородна: например, Gemini-2.0-Pro силён в Rust, а o3-mini устойчив в React, Streamlit, Gradio и Core Web.

Эло‑рейтинги в трёх режимах: все данные, совпадающая среда, совпадающий язык
Эло‑рейтинги в трёх режимах: все данные, совпадающая среда, совпадающий язык
Карты побед по языкам и средам исполнения
Карты побед по языкам и средам исполнения

Про судейство и наградные модели

На основе 4.7K человеческих предпочтений построен BigCodeReward — набор для обучения/оценки моделей в практическом коде. Там три класса (A лучше, B лучше, ничья) и два режима: без и с результатами исполнения (текст, скриншоты, интерактив). Вывод прямой: доступ к запуску обычно повышает точность судей. Наибольший прирост — в диаграммах и геймдеве, наименьший — в прикладном программировании. Есть и нестабильность у отдельных LLM‑судей, что важно для дальнейшей работы.

Автоматическая арена без людей

AutoCodeArena — полностью автоматическое ранжирование. Взяли 600 репрезентативных промтов, код гоняется в Docker, судья — Claude‑3.7‑Sonnet, базовая модель — GPT‑4.1, сравнение идёт парами против базы с бутстреп‑интервалами. Здесь новый лидер — GPT‑5; сильно выступают Claude‑Opus‑4 и Claude‑Sonnet‑4. Среди открытых заметен прогресс у Kimi‑K2, GLM‑4.5, Qwen3‑Coder.

Итоги AutoCodeArena: новый SOTA у GPT‑5, сильные позиции у моделей Claude
Итоги AutoCodeArena: новый SOTA у GPT‑5, сильные позиции у моделей Claude

Почему это важно для сообщества

  • Запуск кода — ключ к честной оценке правильности, устойчивости и соответствия промту.

  • Сама платформа — открытая, с прозрачной инфраструктурой и данными. Можно проверять методику, воспроизводить результаты, строить свои метрики.

  • Накопленные сценарии взаимодействий (клики, клавиатура, прокрутка) открывают путь к более «агентным» судьям и лучшим моделям, учитывающим реальное поведение интерфейсов.

Авторы чистят данные и запускают всё в изолированных песочницах, что снижает риски утечек PII и вредоносного кода. Полного устранения рисков они честно не обещают. Инференс вынесен на внешние эндпоинты, что уменьшает прямой энергофутпринт и упрощает прозрачность.

Что дальше

Команда планирует расширять языки и среды, сделать «живые» версии BigCodeReward/AutoCodeArena, развивать мультиагентные судьи, учитывать пользовательские сценарии и улучшать наградные модели для кода. С практической точки зрения главный урок уже ясен: без исполнения оценка кодогенерации будет хромать. А с исполнением лидеры становятся видны, и прогресс — измерим.

📜 Полная статья

💾 Код

***

Если вам интересна тема ИИ, подписывайтесь на мой Telegram‑канал — там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.

Источник: habr.com

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

СОСТОЯЛОСЬ ЗАСЕДАНИЕ МЕТОДИЧЕСКОГО СОВЕТА, ПОСВЯЩЕННОЕ ПОКОЛЕНИЮ «РОЖДЕННЫХ ЦИФРОВЫМИ»
СОСТОЯЛОСЬ ЗАСЕДАНИЕ МЕТОДИЧЕСКОГО СОВЕТА, ПОСВЯЩЕННОЕ ПОКОЛЕНИЮ «РОЖДЕННЫХ ЦИФРОВЫМИ»
Биофизический мир внутри переполненной клетки
Появились новые доказательства того, как одиночество влияет на память в пожилом возрасте.
NVIDIA ReSTIR PR Enhanced повышает производительность трассировки пути в три раза
«Слишком сложно и дорого»: могли ли американцы сымитировать полет к Луне с помощью ИИ
«Слишком сложно и дорого»: могли ли американцы сымитировать полет к Луне с помощью ИИ
L-эрготиоин: антиоксидант, содержащийся в грибах, может воздействовать на клетки матки, облегчая менструальные боли.
L-эрготиоин: антиоксидант, содержащийся в грибах, может воздействовать на клетки матки, облегчая менструальные боли.
Image Not Found
СОСТОЯЛОСЬ ЗАСЕДАНИЕ МЕТОДИЧЕСКОГО СОВЕТА, ПОСВЯЩЕННОЕ ПОКОЛЕНИЮ «РОЖДЕННЫХ ЦИФРОВЫМИ»

СОСТОЯЛОСЬ ЗАСЕДАНИЕ МЕТОДИЧЕСКОГО СОВЕТА, ПОСВЯЩЕННОЕ ПОКОЛЕНИЮ «РОЖДЕННЫХ ЦИФРОВЫМИ»

19 февраля 2026 года прошло заседание Методического совета, посвященное теме «“Рожденные цифровыми” как субъекты учения: специфика и ее учет в преподавании». В мероприятии участвовали члены Методсовета, проректор по учебной работе, начальник УМУ, а также коллеги с филологического,…

Апр 21, 2026
СОСТОЯЛОСЬ ЗАСЕДАНИЕ МЕТОДИЧЕСКОГО СОВЕТА, ПОСВЯЩЕННОЕ ПОКОЛЕНИЮ «РОЖДЕННЫХ ЦИФРОВЫМИ»

СОСТОЯЛОСЬ ЗАСЕДАНИЕ МЕТОДИЧЕСКОГО СОВЕТА, ПОСВЯЩЕННОЕ ПОКОЛЕНИЮ «РОЖДЕННЫХ ЦИФРОВЫМИ»

19 февраля 2026 года прошло заседание Методического совета, посвященное теме «“Рожденные цифровыми” как субъекты учения: специфика и ее учет в преподавании». В мероприятии участвовали члены Методсовета, проректор по учебной работе, начальник УМУ, а также коллеги с филологического,…

Апр 21, 2026
NVIDIA ReSTIR PR Enhanced повышает производительность трассировки пути в три раза

NVIDIA ReSTIR PR Enhanced повышает производительность трассировки пути в три раза

Исследователи NVIDIA пытаются найти способы повысить производительность ресурсозатратной трассировки пути, которая по сей день остаётся очень тяжёлой нагрузкой даже для лучших игровых видеокарт. К счастью, им удалось найти один из вариантов, как можно не только поднять FPS,…

Апр 21, 2026
Многоразовая ракета New Glenn компании Blue Origin успешно приземлилась, но доставка полезной нагрузки не удалась.

Многоразовая ракета New Glenn компании Blue Origin успешно приземлилась, но доставка полезной нагрузки не удалась.

Однако ей не удалось доставить полезную нагрузку с космической вышки сотовой связи. Теренс О'Брайен, редактор раздела «Выходные». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего…

Апр 20, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых