Иллюзия интеллекта: как живые тесты разоблачают ИИ-кодеров

Окт 15, 2025 0

Оценивать генерацию кода по красивым комментариям — это как смотреть на машину по буклету. В реальной жизни важнее, заведётся ли она, тормозит ли вовремя и удобно ли ей пользоваться. Авторы BigCodeArena предлагают именно такой практичный взгляд: их открытая платформа сравнивает решения больших языковых моделей (LLM) не по совпадению строк, а по запуску, интерактивности и поведению на экране. Пользователь видит двух анонимных соперников, запускает оба решения в песочнице, может кликать по интерфейсу, вводить данные, дебажить и только потом голосует за A, B, ничью или «обе плохи».

Интерфейс BigCodeArena: две стороны A/B, встроенный запуск, просмотр кода и голосование

Зачем это нужно

Длинный код часто «кажется» правильным на глаз, но падает при запуске, сбоит в рантайме или не соответствует промту. Авторы эмпирически показывают: выполнение и интерактивность резко повышают надёжность суждений — как у людей, так и у LLM-судей. Это особенно заметно в задачах с UI, играх, веб-страницах, где важны динамика, обработка событий и мелкие детали UX.

Как устроена площадка

Пользовательский интерфейс собран на Gradio; сервер — модульная система E2B с изолированными песочницами. Поддерживается 10 языков (Python, JS/TS, HTML, C/C++, Java, Go, Rust, Markdown) и 8 окружений (React, Vue, Core Web, Streamlit, PyGame, Gradio, Mermaid, Interpreter). Система автоматически вытягивает код из markdown-блоков, ставит зависимости, компилирует/запускает и возвращает все артефакты: логи, скриншоты, интерактивный UI.

Есть парный режим (в духе Chatbot Arena) и односторонний — для проверки конкретной модели. Чтобы исключить «смещение скорости», результаты обеих сторон показываются только после завершения генерации и запуска. Пары моделей балансируются взвешенной выборкой: новичкам временно повышают вес, чтобы быстрее набрать статистику.

Что успели собрать

За 5+ месяцев — 14,123 сессии от 500+ уникальных IP. Из них выделено 4,731 многошаговых парных примеров с голосами предпочтений. У каждой из 10 моделей — не менее 700 голосов. Темы повторяются по шести направлениям: Web Design, Game Development, Diagram Creation, Creative Coding, Scientific Computing, Problem Solving. По данным видно доминирование Python и интерпретаторных сценариев, но UI-фреймворки тоже занимают крупную долю.

Распределение языков и фреймворков в собранных разговорах

Как сравнивали модели

Голоса агрегируются через модель Брэдли—Терри с бутстрепом (100 повторов) и 95% доверительными интервалами. Рассматривали три режима: все данные; совпадает окружение; совпадает язык. Рейтинги согласованы между режимами. В живых голосованиях стабильно лидируют o3-mini и o1-mini; затем идёт Claude-3.5-Sonnet. Средний эшелон — GPT-4o, o1, Gemini-2.0-Pro/Flash; слабее — Qwen2.5 и Llama-3.3-70B. По языкам и средам картинка неоднородна: например, Gemini-2.0-Pro силён в Rust, а o3-mini устойчив в React, Streamlit, Gradio и Core Web.

Эло‑рейтинги в трёх режимах: все данные, совпадающая среда, совпадающий язык

Карты побед по языкам и средам исполнения

Про судейство и наградные модели

На основе 4.7K человеческих предпочтений построен BigCodeReward — набор для обучения/оценки моделей в практическом коде. Там три класса (A лучше, B лучше, ничья) и два режима: без и с результатами исполнения (текст, скриншоты, интерактив). Вывод прямой: доступ к запуску обычно повышает точность судей. Наибольший прирост — в диаграммах и геймдеве, наименьший — в прикладном программировании. Есть и нестабильность у отдельных LLM‑судей, что важно для дальнейшей работы.

Автоматическая арена без людей

AutoCodeArena — полностью автоматическое ранжирование. Взяли 600 репрезентативных промтов, код гоняется в Docker, судья — Claude‑3.7‑Sonnet, базовая модель — GPT‑4.1, сравнение идёт парами против базы с бутстреп‑интервалами. Здесь новый лидер — GPT‑5; сильно выступают Claude‑Opus‑4 и Claude‑Sonnet‑4. Среди открытых заметен прогресс у Kimi‑K2, GLM‑4.5, Qwen3‑Coder.

Итоги AutoCodeArena: новый SOTA у GPT‑5, сильные позиции у моделей Claude

Почему это важно для сообщества

Запуск кода — ключ к честной оценке правильности, устойчивости и соответствия промту.
Сама платформа — открытая, с прозрачной инфраструктурой и данными. Можно проверять методику, воспроизводить результаты, строить свои метрики.
Накопленные сценарии взаимодействий (клики, клавиатура, прокрутка) открывают путь к более «агентным» судьям и лучшим моделям, учитывающим реальное поведение интерфейсов.

Авторы чистят данные и запускают всё в изолированных песочницах, что снижает риски утечек PII и вредоносного кода. Полного устранения рисков они честно не обещают. Инференс вынесен на внешние эндпоинты, что уменьшает прямой энергофутпринт и упрощает прозрачность.

Что дальше

Команда планирует расширять языки и среды, сделать «живые» версии BigCodeReward/AutoCodeArena, развивать мультиагентные судьи, учитывать пользовательские сценарии и улучшать наградные модели для кода. С практической точки зрения главный урок уже ясен: без исполнения оценка кодогенерации будет хромать. А с исполнением лидеры становятся видны, и прогресс — измерим.

📜 Полная статья

💾 Код

***

Если вам интересна тема ИИ, подписывайтесь на мой Telegram‑канал — там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.

Источник: habr.com

Метки:

Иллюзия новости

ПРЕДЫДУЩАЯ ЗАПИСЬ

15.10.2025

ФАС возбудила дело против авиакомпании «Победа» из-за аудиорекламы в самолётах

СЛЕДУЮЩАЯ ЗАПИСЬ

15.10.2025

Gemini от Google теперь поможет вам планировать встречи в Календаре Google

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

Еще новости рубрики

Архив рубрики ~Обо всем~

Фантазии

Июл 2, 2024

Архив рубрики ~Обо всем~

Мировоззрение

Июл 2, 2024

Архив рубрики ~Обо всем~

Влияние выдумщиков и фантазеров на развитие…

Июл 2, 2024

Архив рубрики ~Обо всем~

Нет ничего невозможного

Июл 2, 2024

Присоединяйтесь
к нам в

TELEGRAM

галерея

Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.

Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Взаимодействие человека и машины погружается под воду.

Дифференциально приватное машинное обучение в масштабе с использованием JAX-Privacy

НОВОСТИ ДРУГИХ РУБРИК

Архив рубрики ~Лента новостей~

Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.

Вкратце Опубликовано: Изображение предоставлено: Thos Robinson/Getty Images для The New York Times (откроется в новом окне) Джули Борт Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.…

ЧИТАТЬ

Апр 21, 2026

Архив рубрики ~Лента новостей~

Как почистить виниловые пластинки (2026): пылесос, ультразвук, чистящий раствор, щетка.

Эти щелчки и треск недопустимы. Приведите свою музыку в порядок с помощью этого удобного руководства. Источник: www.wired.com

ЧИТАТЬ

Апр 21, 2026

Архив рубрики ~Лента новостей~

Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Это сегодняшний выпуск The Download, нашей ежедневной новостной рассылки, которая предоставляет вам ежедневную порцию событий в мире технологий. Кибермошенники обходят системы безопасности банков с помощью незаконных инструментов, продаваемых в Telegram. В центре по отмыванию денег в Камбодже…

ЧИТАТЬ

Апр 21, 2026

Архив рубрики ~Лента новостей~

Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

ЧИТАТЬ

Апр 21, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых

ИдеиPRO

Иллюзия интеллекта: как живые тесты разоблачают ИИ-кодеров

Зачем это нужно

Как устроена площадка

Что успели собрать

Как сравнивали модели

Про судейство и наградные модели

Автоматическая арена без людей

Почему это важно для сообщества

Что дальше

Еще новости рубрики

Присоединяйтесь к нам в

Рубрики

галерея

НОВОСТИ ДРУГИХ РУБРИК

Присоединяйтесь
к нам в