Архив рубрики ~Лента новостей~

Брайан Мур запустил довольно едкий бенчмарк AI World Clocks, в котором девять ИИ разных поколений пытаются создать в HTML часы, показывающие правильное время

Брайан Мур запустил довольно едкий бенчмарк AI World Clocks, в котором девять ИИ разных поколений пытаются создать в HTML часы, показывающие правильное время

15f4524d59507e38778dec91c4db863c

Задача оказалась не по зубам даже лучшим моделям. По условиям, каждую минуту нейросети должны генерировать новый, заметно отличающийся код. В некоторых случаях код попадал в задачу почти идеально, но ни одна модель не смогла создавать правильный циферблат стабильно каждую минуту.

Однако тут есть важный нюанс. В бенчмарке используется очень простой, почти примитивный промпт. Моделям просто говорят: «сделай часы». Им не объясняют, как именно считать углы стрелок, где у CSS находится ноль градусов и как вообще проверить, что всё встало на свои места.

Если добавить сюда ограничение по токенам, получается забавный итог: ИИ честно рисует красивый циферблат, но совершенно не обязан ни перепроверять математику, ни править собственные ошибки.

Этот эксперимент показывает более глубокую проблему. Промпт в нём написан непрофессиональным человеческим языком. Именно так и работают с ИИ многие пользователи — просят «нарисуй мне часы и покрасивее».

Похоже, в будущем разработчикам ИИ предстоит не только улучшать сами модели. Им придётся дорабатывать и интерфейс взаимодействия, чтобы нейросеть сама научилась различать неполные запросы, задавала уточняющие вопросы и доводила расплывчатые идеи до ума.

Источник: vk.com

Источник: ai-news.ru

✅ Найденные теги: Брайан, новости
Читайте также
Архив рубрики ~Коротко из Telegram~ Госдума приняла нормы, предусматривающие штрафы за нарушение новых требований к… Архив рубрики ~Обо всем~ Лучшие предложения на роботы-пылесосы в рамках Prime Day, которые я бы купил сейчас, после тестирования десятков вариантов. Архив рубрики ~Обо всем~ Мы профессионально отслеживаем выгодные предложения: вот лучшие предложения, которые нашли наши эксперты CNET на этой неделе. Архив рубрики ~Обо всем~ Как обучить модель оценки в эпоху искусственного интеллекта Архив рубрики ~Коротко из Telegram~ 🤖 Промышленным компаниям помогут внедрить ИИ На Архитектурном совете кластера… Архив рубрики ~Коротко из Telegram~ Шопоголикам выписали плацебо Любопытный тренд пришел из Южной Кореи. Там… Архив рубрики ~Коротко из Telegram~ Возвращаясь в мир без интернета Ozon Банк начал тестировать перевод… Архив рубрики ~Коротко из Telegram~ ♻️ Городские камеры подключат к борьбе с незаконными свалками NtechLab… Архив рубрики ~Коротко из Telegram~ Эксперты Data Insight выпустили новый рейтинг крупнейших интернет-магазинов России за… Архив рубрики ~Коротко из Telegram~ LLM delenda est или Язык до AGI не доведет Свежее… Архив рубрики ~Коротко из Telegram~ Обратил внимание, что ребята из Anthropic Institute (исследовательская лаба Антропиков)… Архив рубрики ~Коротко из Telegram~ Про Fable 5 еще. Сегодня уже была новость об этой… Архив рубрики ~Коротко из Telegram~ Pokémon Go помогал ловить покемонов, а теперь может помочь дронам… Архив рубрики ~Коротко из Telegram~ Учёные собрали полную карту нервной системы дрозофилы Исследователи полностью оцифровали… Архив рубрики ~Коротко из Telegram~ Госдума приняла нормы, предусматривающие штрафы за нарушение новых требований к… Архив рубрики ~Обо всем~ Лучшие предложения на роботы-пылесосы в рамках Prime Day, которые я бы купил сейчас, после тестирования десятков вариантов. Архив рубрики ~Обо всем~ Мы профессионально отслеживаем выгодные предложения: вот лучшие предложения, которые нашли наши эксперты CNET на этой неделе. Архив рубрики ~Обо всем~ Как обучить модель оценки в эпоху искусственного интеллекта Архив рубрики ~Коротко из Telegram~ 🤖 Промышленным компаниям помогут внедрить ИИ На Архитектурном совете кластера… Архив рубрики ~Коротко из Telegram~ Шопоголикам выписали плацебо Любопытный тренд пришел из Южной Кореи. Там… Архив рубрики ~Коротко из Telegram~ Возвращаясь в мир без интернета Ozon Банк начал тестировать перевод… Архив рубрики ~Коротко из Telegram~ ♻️ Городские камеры подключат к борьбе с незаконными свалками NtechLab… Архив рубрики ~Коротко из Telegram~ Эксперты Data Insight выпустили новый рейтинг крупнейших интернет-магазинов России за… Архив рубрики ~Коротко из Telegram~ LLM delenda est или Язык до AGI не доведет Свежее… Архив рубрики ~Коротко из Telegram~ Обратил внимание, что ребята из Anthropic Institute (исследовательская лаба Антропиков)… Архив рубрики ~Коротко из Telegram~ Про Fable 5 еще. Сегодня уже была новость об этой… Архив рубрики ~Коротко из Telegram~ Pokémon Go помогал ловить покемонов, а теперь может помочь дронам… Архив рубрики ~Коротко из Telegram~ Учёные собрали полную карту нервной системы дрозофилы Исследователи полностью оцифровали…

Подписка на рассылку

Получайте свежие новости и идеи на почту. Без спама — только самое интересное.

Нажимая «Подписаться», вы соглашаетесь с политикой конфиденциальности.