Задача оказалась не по зубам даже лучшим моделям. По условиям, каждую минуту нейросети должны генерировать новый, заметно отличающийся код. В некоторых случаях код попадал в задачу почти идеально, но ни одна модель не смогла создавать правильный циферблат стабильно каждую минуту.
Однако тут есть важный нюанс. В бенчмарке используется очень простой, почти примитивный промпт. Моделям просто говорят: «сделай часы». Им не объясняют, как именно считать углы стрелок, где у CSS находится ноль градусов и как вообще проверить, что всё встало на свои места.
Если добавить сюда ограничение по токенам, получается забавный итог: ИИ честно рисует красивый циферблат, но совершенно не обязан ни перепроверять математику, ни править собственные ошибки.
Этот эксперимент показывает более глубокую проблему. Промпт в нём написан непрофессиональным человеческим языком. Именно так и работают с ИИ многие пользователи — просят «нарисуй мне часы и покрасивее».
Похоже, в будущем разработчикам ИИ предстоит не только улучшать сами модели. Им придётся дорабатывать и интерфейс взаимодействия, чтобы нейросеть сама научилась различать неполные запросы, задавала уточняющие вопросы и доводила расплывчатые идеи до ума.
Источник: vk.com
Источник: ai-news.ru



























