Как AI от Antropic управлял микро-бизнесом — дополнение к предыдущему посту

30.06.2025 ideipro.ru

Вчера я рассказывал вам как AI-агент Claude от Anthropic управлял своим микро-бизнесом — вендинговым аппаратом в офисе компании (на фото). И прогорел. Но к этой истории нашлось интересное дополнение. И я решил написать продолжение.

Как AI от Antropic управлял микро-бизнесом — дополнение к предыдущему посту

Anthropic не просто так решили доверить своему AI управление вендинговым аппаратом. Как подметил в комментах подписчик Михаил Першин, есть такой тест Vending-Bench, когда проверяют способность AI от разных разработчиков управлять вендинговым аппаратом.

Проводит этот тест компания Andon Labs. Они были партнерами Anthropic в этом эксперименте и, в частности, загружали товары в холодильник. Andon Labs в 2023-м запустили Лукас Петерссон и Эмиль Фрёберг (но он, похоже, отошел от дел). А зимой 2024-го парни со своим стартапом попали в Y Combinator.

Andon Labs разработала платформу, которая позволяет тестировать LLM в реальных сценариях и оценивать их поведение. Идея в том, что сейчас AI развивается бешеными темпами, но какие косяки могут вылезти в реальных условиях использования или при взаимодействии нескольких LLM, никто не знает. Поэтому давайте тестировать их заранее в имитационных средах и изучать риски.

А в феврале этого года Andon Labs опубликовала большую статью про свой Vending-Bench. Одна из задач была в том, чтобы проверить способность LLM выполнять задачи в течение длительных временных горизонтов.

Так вот Claude от Anthropic (версия Claude 3.5 Sonnet) в тех тестах показал один из лучших результатов — 82,2% от результата человека. На втором месте была o3-mini от OpenAI — 80,3%.

Видать, после этой статьи в Anthropic решили повторить эксперимент — они запустили его в марте. Разница была в том, что Andon Labs проводили эксперимент в виртуальной среде, а вот Anthropic поставил реальный холодильник с товарами в реальном офисе. И была более новая версия AI — Claude Sonnet 3.7.

Но как-то результаты оказались сильно хуже виртуального теста. В имитации Claude смог в определенный момент увеличить первоначальный капитал ($500) аж более чем в 4 раза. А в реальном мире оценка только падала. Вот такая суровая реальность.

Есть еще один интересный момент. Постоянно же выходят новые версии LLM от разных компаний. И Andon Labs продолжает их тестировать. Так вот Gemini 2.5 Pro от Google показал результат 89% от человеческого. А Claude Opus 4 от Anthropic — аж 99,5%. Почти как человек!

Вот очень интересно было бы посмотреть на повторение эксперимента от Anthropic с их новой LLM.

Подписывайтесь на Telegram The Edinorog 🦄.

Источник: vc.ru

Оцените материал:

Читайте также

Как AI от Antropic управлял микро-бизнесом — дополнение к предыдущему посту

🤖 Нельсон AI

Гайды, руководства и полезные статьи

Похожие записи

Похожие записи

Кровь педиатров используется для создания новых методов лечения респираторно-синцитиального вируса и простуды.

Мошенники активизируются перед осенними распродажами. Как избежать фишинговых атак?

По словам источника, компания Lovable заключила многолетнее соглашение с Google Cloud о пятикратном увеличении использования сервиса.

Присоединяйтесь и подпишитесь на рассылку самых свежих новостей по Email

🤖 Нельсон AI