Закажи экспресс-аудит своего дела онлайн всего за 199 ₽
и получи рекомендации по улучшению - Жми сюда !

Как AI от Antropic управлял микро-бизнесом — дополнение к предыдущему посту

Вчера я рассказывал вам как AI-агент Claude от Anthropic управлял своим микро-бизнесом — вендинговым аппаратом в офисе компании (на фото). И прогорел. Но к этой истории нашлось интересное дополнение. И я решил написать продолжение.

Как AI от Antropic управлял микро-бизнесом — дополнение к предыдущему посту

Anthropic не просто так решили доверить своему AI управление вендинговым аппаратом. Как подметил в комментах подписчик Михаил Першин, есть такой тест Vending-Bench, когда проверяют способность AI от разных разработчиков управлять вендинговым аппаратом.

Проводит этот тест компания Andon Labs. Они были партнерами Anthropic в этом эксперименте и, в частности, загружали товары в холодильник. Andon Labs в 2023-м запустили Лукас Петерссон и Эмиль Фрёберг (но он, похоже, отошел от дел). А зимой 2024-го парни со своим стартапом попали в Y Combinator.

Andon Labs разработала платформу, которая позволяет тестировать LLM в реальных сценариях и оценивать их поведение. Идея в том, что сейчас AI развивается бешеными темпами, но какие косяки могут вылезти в реальных условиях использования или при взаимодействии нескольких LLM, никто не знает. Поэтому давайте тестировать их заранее в имитационных средах и изучать риски.

А в феврале этого года Andon Labs опубликовала большую статью про свой Vending-Bench. Одна из задач была в том, чтобы проверить способность LLM выполнять задачи в течение длительных временных горизонтов.

Так вот Claude от Anthropic (версия Claude 3.5 Sonnet) в тех тестах показал один из лучших результатов — 82,2% от результата человека. На втором месте была o3-mini от OpenAI — 80,3%.

Видать, после этой статьи в Anthropic решили повторить эксперимент — они запустили его в марте. Разница была в том, что Andon Labs проводили эксперимент в виртуальной среде, а вот Anthropic поставил реальный холодильник с товарами в реальном офисе. И была более новая версия AI — Claude Sonnet 3.7.

Но как-то результаты оказались сильно хуже виртуального теста. В имитации Claude смог в определенный момент увеличить первоначальный капитал ($500) аж более чем в 4 раза. А в реальном мире оценка только падала. Вот такая суровая реальность.

Есть еще один интересный момент. Постоянно же выходят новые версии LLM от разных компаний. И Andon Labs продолжает их тестировать. Так вот Gemini 2.5 Pro от Google показал результат 89% от человеческого. А Claude Opus 4 от Anthropic — аж 99,5%. Почти как человек!

Вот очень интересно было бы посмотреть на повторение эксперимента от Anthropic с их новой LLM.

Подписывайтесь на Telegram The Edinorog 🦄.

Источник: vc.ru

✅ Найденные теги: Как, новости

Нет других записей в этой рубрике.

Новости других рубрик

Архив рубрики ~Лента новостей~: ФИФА расширяет использование ИИ на чемпионате мира, чтобы уменьшить количество оскорблений со стороны игроков. Архив рубрики ~Лента новостей~: Богатство звучания: руки мастера или дело техники? Архив рубрики ~Лента новостей~: DuckDuckGo устанавливает Spike, поскольку Google пытается заменить поиск искусственным интеллектом Архив рубрики ~Лента новостей~: AI неожиданно вернул человечество к вопросу о смысле Архив рубрики ~Лента новостей~: Вымирающие мангровые дарвиновы вьюрки вывели 25 птенцов. Это рекордное число с начала наблюдений Архив рубрики ~Лента новостей~: В пятницу история с утечкой воздуха на Международной космической станции приняла тревожный оборот. Архив рубрики ~Лента новостей~: ОБНАРУЖЕН БИОЛОГИЧЕСКИЙ МАРКЕР СОЗНАНИЯ Архив рубрики ~Лента новостей~: Рассматриваем первую фотографию контактной площадки процессоров Intel Nova Lake