Image

Умеют ли нейросети создавать игры?

adf6ef9da56cf8753e93bf106d43001a

Сделать игру — это не просто заставить код выполняться. Нужны понятная механика, приятная картинка, плавная анимация и стабильные 60 FPS. Большие языковые модели уверенно решают алгоритмические задачи, но в оценках их кода редко учитывают играбельность и эстетику. Авторы V-GameGym предлагают восполнить этот пробел: они собрали реалистичный бенчмарк для визуальной генерации игр на Python с Pygame и показали, как объективно измерять качество такой работы.

Визуальное программирование аркадной игры в стиле Flappy Bird.
Визуальное программирование аркадной игры в стиле Flappy Bird.

Что именно придумали

V-GameGym — это 2 219 тщательно выверенных игровых примеров, распределённых по 100 тематическим кластерам и собранных из 2 190 реальных репозиториев. Каждый пример — это пара “требование на естественном языке — эталонный код”, который гарантированно запускается и генерирует визуальные артефакты: скриншоты и видео короткого демо. Поверх этого действует мультимодальная оценка: проверяется не только код, но и то, что видит игрок.

Обзор фреймворка V-GameGym: от сбора данных до оценки.
Обзор фреймворка V-GameGym: от сбора данных до оценки.

Как собрали набор

Исходные проекты взяли из OpenCoder и The Stack v2 и отфильтровали по использованию Pygame. Чтобы избежать однообразия, авторы описали каждую программу векторами признаков (структура, API, длина, частоты паттернов) и провели кластеризацию MiniBatchKMeans. Из каждого кластера выбирали наиболее “полный” по структуре образец. Так добились и разнообразия, и высокой запускаемости.

Затем вступил автоматизированный LLM-пайплайн. Он анализировал намерение исходной игры, добавлял автономное поведение (демо фиксированной длительности без клавиатуры), проверял запуск в песочнице, исправлял сбои по логам и формировал понятные требования как будто от продукт-менеджера. После этого восемь аспирантов просмотрели код и визуальные результаты в UI-песочнице и утвердили финальный набор.

Как оценивают модели

Система измеряет три модальности и усредняет их в один балл:

  • код: функциональность, качество и техника реализации;

  • скриншоты: полнота интерфейса и визуальная готовность;

  • видео: анимация, динамика, целостность геймплея.

Для автоматического судейства использованы две сильные модели: Qwen3-Coder-480B-A35B-Instruct оценивает код, Qwen2.5-VL-72B — визуальные артефакты. В итоге можно присвоить игре категорию от Poor до Excellent и получить честный индикатор играбельности, а не только синтаксиса.

Матрица корреляций между кодом, скриншотами и видео: как соотносятся разные стороны качества.
Матрица корреляций между кодом, скриншотами и видео: как соотносятся разные стороны качества.

Что показали эксперименты

Авторы протестировали 70 моделей — от открытых до коммерческих. Картина получилась показательной.

  • Лидируют закрытые решения: лучший итоговый балл — 45.0 (GPT-5). Среди открытых выше всех — гиганты уровня 400B+, такие как Qwen3-Coder-480B и DeepSeek-V3.

  • Разрыв между кодом и картинкой ощутим: оценка кода часто 70+, а вот скриншоты и видео — ниже 25. Модели уверенно пишут работающий Pygame, но слабее передают эстетику и динамику.

  • Масштаб помогает, но не решает всё: наблюдается логарифмический рост числа решённых игр с числом параметров модели; архитектура и обучение вносят заметный вклад.

  • Длинный хвост сложности: большинство задач остаются на уровнях Fair и Poor, а Excellent — редкость. Игра — это интеграция логики, графики и времени, и здесь модели часто спотыкаются.

Корреляция между размером модели и количеством решённых игр.
Корреляция между размером модели и количеством решённых игр.
Распределение результатов по коду, скриншотам и видео: визуальная часть заметно слабее.
Распределение результатов по коду, скриншотам и видео: визуальная часть заметно слабее.

Почему это важно

V-GameGym возвращает оценку кодогенерации к реальности. В играх важны не только функции и классы, но и темп, отклик, читаемость экрана. Новый бенчмарк учит модели отвечать за полный опыт: от структуры проекта до кадров на экране.

Это создаёт пространство для исследований в трёх направлениях:

  • планирование и модель мира для сцены и правил;

  • графика и анимация, согласованные с игровой логикой;

  • производительность и стабильность кадров в ограниченной среде.

Плюс появляется честная метрика прогресса — лидерборд, где видно, кому удаются динамичные сцены, а кому — аккуратный код.

Где узкие места

Набор заточен под Pygame: сложные 3D‑миры и специализированные движки пока вне охвата. Автономные демо не заменяют живого игрока. Оценка LLM‑судьями, хоть и надёжная, может иметь смещения; авторы борются с этим валидацией, ретраями и ручной проверкой.

Тем не менее инфраструктура стабильна: 100% запусков эталонов, видео покрывают все примеры, на каждую игру — десять скриншотов.

Матрица производительности 25 лучших моделей на 60 самых сложных играх: даже лидерам тяжело на правом краю.
Матрица производительности 25 лучших моделей на 60 самых сложных играх: даже лидерам тяжело на правом краю.

Авторы видят перспективы в мультимодальном обучении, где модели одновременно планируют механику, рисуют ассеты, подбирают ритм и регулируют FPS. Здесь помогут мультиагентные системы в роли дизайнера, программиста и тестировщика, генерация ассетов на лету и обучение по человеческим сессиям. И, конечно, расширение набора за рамки Pygame.

Итог

V-GameGym аккуратно закрывает разрыв между точностью кода и качеством игрового опыта. Теперь у нас есть масштабный, разнообразный и воспроизводимый способ проверять, умеют ли LLM не только писать программы, но и создавать игры, в которые хочется играть.

Таблица лидеров: кто решает больше игр.
Таблица лидеров: кто решает больше игр.

📜 Полная статья

***

Если вам интересна тема ИИ, подписывайтесь на мой Telegram‑канал — там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.

Источник: habr.com

✅ Найденные теги: новости, Умеют
Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Фото сгенерированных лиц: исследование показывает, что люди не могут отличить настоящие лица от сгенерированных
Нейросети построили капитализм за трое суток: 100 агентов Claude заперли…
Скетч: цифровой осьминог и виртуальный мир внутри компьютера с человечком.
Сцена с жестами пальцами, где один жест символизирует "VPN", а другой "KHP".
‼️Paramount купила Warner Bros. Discovery — сумма сделки составила безумные…
Скриншот репозитория GitHub "Claude Scientific Skills" AI для научных исследований.
Структура эффективного запроса Claude с элементами задачи, контекста и референса.
Эскиз и готовая веб-страница платформы для AI-дизайна в современном темном режиме.
ideipro logotyp
Image Not Found
Звёздное небо с галактиками и туманностями, космос, Вселенная, астрофотография.

Система оповещения обсерватории Рубина отправила 800 000 сигналов в первую ночь наблюдений.

Астрономы будут получать оповещения о небесных явлениях в течение нескольких минут после их обнаружения. Теренс О'Брайен, редактор раздела «Выходные». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной…

Мар 2, 2026
Женщина с длинными тёмными волосами в синем свете, нейтральный фон.

Расследование в отношении 61-фунтовой машины, которая «пожирает» пластик и выплевывает кирпичи.

Обзор компактного пресса для мягкого пластика Clear Drop — и что будет дальше. Шон Холлистер, старший редактор Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего…

Мар 2, 2026
Черный углеродное волокно с текстурой плетения, отражающий свет.

Материал будущего: как работает «бессмертный» композит

Учёные из Университета штата Северная Каролина представили композит нового поколения, способный самостоятельно восстанавливаться после серьёзных повреждений.  Речь идёт о модифицированном армированном волокном полимере (FRP), который не просто сохраняет прочность при малом весе, но и способен «залечивать» внутренние…

Мар 2, 2026
Круглый экран с изображением замка и горы, рядом электронная плата.

Круглый дисплей Waveshare для креативных проектов

Круглый 7-дюймовый сенсорный дисплей от Waveshare создан для разработчиков и дизайнеров, которым нужен нестандартный экран.  Это IPS-панель с разрешением 1 080×1 080 пикселей, поддержкой 10-точечного ёмкостного сенсора, оптической склейкой и защитным закалённым стеклом, выполненная в круглом форм-факторе.…

Мар 2, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых