Image

Иллюзия интеллекта: как живые тесты разоблачают ИИ-кодеров

77dc6180cea597672db0e493cd2a9664

Оценивать генерацию кода по красивым комментариям — это как смотреть на машину по буклету. В реальной жизни важнее, заведётся ли она, тормозит ли вовремя и удобно ли ей пользоваться. Авторы BigCodeArena предлагают именно такой практичный взгляд: их открытая платформа сравнивает решения больших языковых моделей (LLM) не по совпадению строк, а по запуску, интерактивности и поведению на экране. Пользователь видит двух анонимных соперников, запускает оба решения в песочнице, может кликать по интерфейсу, вводить данные, дебажить и только потом голосует за A, B, ничью или «обе плохи».

Интерфейс BigCodeArena: две стороны A/B, встроенный запуск, просмотр кода и голосование
Интерфейс BigCodeArena: две стороны A/B, встроенный запуск, просмотр кода и голосование

Зачем это нужно

Длинный код часто «кажется» правильным на глаз, но падает при запуске, сбоит в рантайме или не соответствует промту. Авторы эмпирически показывают: выполнение и интерактивность резко повышают надёжность суждений — как у людей, так и у LLM-судей. Это особенно заметно в задачах с UI, играх, веб-страницах, где важны динамика, обработка событий и мелкие детали UX.

Как устроена площадка

Пользовательский интерфейс собран на Gradio; сервер — модульная система E2B с изолированными песочницами. Поддерживается 10 языков (Python, JS/TS, HTML, C/C++, Java, Go, Rust, Markdown) и 8 окружений (React, Vue, Core Web, Streamlit, PyGame, Gradio, Mermaid, Interpreter). Система автоматически вытягивает код из markdown-блоков, ставит зависимости, компилирует/запускает и возвращает все артефакты: логи, скриншоты, интерактивный UI.

Обзор конвейера BigCodeArena
Обзор конвейера BigCodeArena

Есть парный режим (в духе Chatbot Arena) и односторонний — для проверки конкретной модели. Чтобы исключить «смещение скорости», результаты обеих сторон показываются только после завершения генерации и запуска. Пары моделей балансируются взвешенной выборкой: новичкам временно повышают вес, чтобы быстрее набрать статистику.

Что успели собрать

За 5+ месяцев — 14,123 сессии от 500+ уникальных IP. Из них выделено 4,731 многошаговых парных примеров с голосами предпочтений. У каждой из 10 моделей — не менее 700 голосов. Темы повторяются по шести направлениям: Web Design, Game Development, Diagram Creation, Creative Coding, Scientific Computing, Problem Solving. По данным видно доминирование Python и интерпретаторных сценариев, но UI-фреймворки тоже занимают крупную долю.

Распределение языков и фреймворков в собранных разговорах
Распределение языков и фреймворков в собранных разговорах

Как сравнивали модели

Голоса агрегируются через модель Брэдли—Терри с бутстрепом (100 повторов) и 95% доверительными интервалами. Рассматривали три режима: все данные; совпадает окружение; совпадает язык. Рейтинги согласованы между режимами. В живых голосованиях стабильно лидируют o3-mini и o1-mini; затем идёт Claude-3.5-Sonnet. Средний эшелон — GPT-4o, o1, Gemini-2.0-Pro/Flash; слабее — Qwen2.5 и Llama-3.3-70B. По языкам и средам картинка неоднородна: например, Gemini-2.0-Pro силён в Rust, а o3-mini устойчив в React, Streamlit, Gradio и Core Web.

Эло‑рейтинги в трёх режимах: все данные, совпадающая среда, совпадающий язык
Эло‑рейтинги в трёх режимах: все данные, совпадающая среда, совпадающий язык
Карты побед по языкам и средам исполнения
Карты побед по языкам и средам исполнения

Про судейство и наградные модели

На основе 4.7K человеческих предпочтений построен BigCodeReward — набор для обучения/оценки моделей в практическом коде. Там три класса (A лучше, B лучше, ничья) и два режима: без и с результатами исполнения (текст, скриншоты, интерактив). Вывод прямой: доступ к запуску обычно повышает точность судей. Наибольший прирост — в диаграммах и геймдеве, наименьший — в прикладном программировании. Есть и нестабильность у отдельных LLM‑судей, что важно для дальнейшей работы.

Автоматическая арена без людей

AutoCodeArena — полностью автоматическое ранжирование. Взяли 600 репрезентативных промтов, код гоняется в Docker, судья — Claude‑3.7‑Sonnet, базовая модель — GPT‑4.1, сравнение идёт парами против базы с бутстреп‑интервалами. Здесь новый лидер — GPT‑5; сильно выступают Claude‑Opus‑4 и Claude‑Sonnet‑4. Среди открытых заметен прогресс у Kimi‑K2, GLM‑4.5, Qwen3‑Coder.

Итоги AutoCodeArena: новый SOTA у GPT‑5, сильные позиции у моделей Claude
Итоги AutoCodeArena: новый SOTA у GPT‑5, сильные позиции у моделей Claude

Почему это важно для сообщества

  • Запуск кода — ключ к честной оценке правильности, устойчивости и соответствия промту.

  • Сама платформа — открытая, с прозрачной инфраструктурой и данными. Можно проверять методику, воспроизводить результаты, строить свои метрики.

  • Накопленные сценарии взаимодействий (клики, клавиатура, прокрутка) открывают путь к более «агентным» судьям и лучшим моделям, учитывающим реальное поведение интерфейсов.

Авторы чистят данные и запускают всё в изолированных песочницах, что снижает риски утечек PII и вредоносного кода. Полного устранения рисков они честно не обещают. Инференс вынесен на внешние эндпоинты, что уменьшает прямой энергофутпринт и упрощает прозрачность.

Что дальше

Команда планирует расширять языки и среды, сделать «живые» версии BigCodeReward/AutoCodeArena, развивать мультиагентные судьи, учитывать пользовательские сценарии и улучшать наградные модели для кода. С практической точки зрения главный урок уже ясен: без исполнения оценка кодогенерации будет хромать. А с исполнением лидеры становятся видны, и прогресс — измерим.

📜 Полная статья

💾 Код

***

Если вам интересна тема ИИ, подписывайтесь на мой Telegram‑канал — там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.

Источник: habr.com

✅ Найденные теги: Иллюзия, новости
Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Человек спит в кровати под красным пледом, солнечный свет падает на подушку.
Человек в смокинге держит планеты Земля и Марс, символизируя космические достижения.
Твердотельный аккумулятор Donut на выставке, показывает замещающий литий-ион стоимость.
Человек рядом с изображением двойной спирали ДНК на фоне природы.
Залитый солнцем лес с деревьями и болотистой водой, покрытой зелёной растительностью.
Пленка NeoFilm 100 на деревянном столе в окружении упаковок.
Деревянный минималистичный сундук с подсветкой в интерьере.
Обложка отчета о преодолении разрыва в операционном ИИ от MIT Technology Review.
Твит о разработке в 2026: выполнение сложных задач до пробуждения США, чтобы избежать проблем с ИИ.
Image Not Found
Человек в смокинге держит планеты Земля и Марс, символизируя космические достижения.

Почему SpaceX может выйти на биржу и с чем это может быть связано

Мы ведь явно не воспринимаем всерьез центры обработки данных в космосе? Элизабет Лопатто, старший репортер. Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего сайта. Все…

Мар 5, 2026
Твердотельный аккумулятор Donut на выставке, показывает замещающий литий-ион стоимость.

Согласно результатам испытаний, твердотельная батарея Donut Lab способна выдерживать (экстремальные) температуры.

Разработанная финским стартапом батарея не только выдержала экстремальные условия высокой температуры, но и фактически увеличила свою емкость. Эндрю Дж. Хокинс, редактор раздела «Транспорт». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в…

Мар 5, 2026
Пленка NeoFilm 100 на деревянном столе в окружении упаковок.

Цифровая камера OPT NeoFilm 100 в формате плёнки

Компактная камера OPT NeoFilm 100 выполнена в виде классической 35-мм плёнки, но внутри скрывается не аналоговый механизм, а цифровая «начинка», способная снимать фото и видео.  Камера оснащена 1-мегапиксельным сенсором, который позволяет получать изображения с разрешением до 3…

Мар 5, 2026
Деревянный минималистичный сундук с подсветкой в интерьере.

«Умная» кровать-трансформер Roll

Хорватский дизайнер Лука Булян разработал проект складной кровати Roll, которая по нажатию кнопки сворачивается в аккуратный деревянный шкаф. Главная идея строится на принципе ежедневного скручивания матраса без потери его свойств. Конструкция оснащена тихим электродвигателем и плавным механизмом…

Мар 5, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых