Брайан Мур запустил довольно едкий бенчмарк AI World Clocks, в котором девять ИИ разных поколений пытаются создать в HTML часы, показывающие правильное время
Задача оказалась не по зубам даже лучшим моделям. По условиям, каждую минуту нейросети должны генерировать новый, заметно отличающийся код. В некоторых случаях код попадал в задачу почти идеально, но ни одна модель не смогла создавать правильный циферблат стабильно каждую минуту.
Однако тут есть важный нюанс. В бенчмарке используется очень простой, почти примитивный промпт. Моделям просто говорят: «сделай часы». Им не объясняют, как именно считать углы стрелок, где у CSS находится ноль градусов и как вообще проверить, что всё встало на свои места.
Если добавить сюда ограничение по токенам, получается забавный итог: ИИ честно рисует красивый циферблат, но совершенно не обязан ни перепроверять математику, ни править собственные ошибки.
Этот эксперимент показывает более глубокую проблему. Промпт в нём написан непрофессиональным человеческим языком. Именно так и работают с ИИ многие пользователи — просят «нарисуй мне часы и покрасивее».
Похоже, в будущем разработчикам ИИ предстоит не только улучшать сами модели. Им придётся дорабатывать и интерфейс взаимодействия, чтобы нейросеть сама научилась различать неполные запросы, задавала уточняющие вопросы и доводила расплывчатые идеи до ума.
Источник: vk.com
Источник: ai-news.ru
Похожие записи
- Промпт-инъекции в реальных данных, широкие права доступа и другие способы сломать ИИ-агента
- Мнение The Guardian о детях и интернете: сдерживание неограниченной власти крупных технологических компаний | Редакционная статья
- Неожиданная победа: GPT-5.5 превзошла Claude Fable 5 в новом, невероятно сложном тесте Agents' Last Exam.
Похожие записи
Подписка на рассылку
Получайте свежие новости и идеи на почту. Без спама — только самое интересное.
Нажимая «Подписаться», вы соглашаетесь с политикой конфиденциальности.
