Вчера я рассказывал вам как AI-агент Claude от Anthropic управлял своим микро-бизнесом — вендинговым аппаратом в офисе компании (на фото). И прогорел. Но к этой истории нашлось интересное дополнение. И я решил написать продолжение.

Anthropic не просто так решили доверить своему AI управление вендинговым аппаратом. Как подметил в комментах подписчик Михаил Першин, есть такой тест Vending-Bench, когда проверяют способность AI от разных разработчиков управлять вендинговым аппаратом.
Проводит этот тест компания Andon Labs. Они были партнерами Anthropic в этом эксперименте и, в частности, загружали товары в холодильник. Andon Labs в 2023-м запустили Лукас Петерссон и Эмиль Фрёберг (но он, похоже, отошел от дел). А зимой 2024-го парни со своим стартапом попали в Y Combinator.
Andon Labs разработала платформу, которая позволяет тестировать LLM в реальных сценариях и оценивать их поведение. Идея в том, что сейчас AI развивается бешеными темпами, но какие косяки могут вылезти в реальных условиях использования или при взаимодействии нескольких LLM, никто не знает. Поэтому давайте тестировать их заранее в имитационных средах и изучать риски.
А в феврале этого года Andon Labs опубликовала большую статью про свой Vending-Bench. Одна из задач была в том, чтобы проверить способность LLM выполнять задачи в течение длительных временных горизонтов.
Так вот Claude от Anthropic (версия Claude 3.5 Sonnet) в тех тестах показал один из лучших результатов — 82,2% от результата человека. На втором месте была o3-mini от OpenAI — 80,3%.
Видать, после этой статьи в Anthropic решили повторить эксперимент — они запустили его в марте. Разница была в том, что Andon Labs проводили эксперимент в виртуальной среде, а вот Anthropic поставил реальный холодильник с товарами в реальном офисе. И была более новая версия AI — Claude Sonnet 3.7.
Но как-то результаты оказались сильно хуже виртуального теста. В имитации Claude смог в определенный момент увеличить первоначальный капитал ($500) аж более чем в 4 раза. А в реальном мире оценка только падала. Вот такая суровая реальность.
Есть еще один интересный момент. Постоянно же выходят новые версии LLM от разных компаний. И Andon Labs продолжает их тестировать. Так вот Gemini 2.5 Pro от Google показал результат 89% от человеческого. А Claude Opus 4 от Anthropic — аж 99,5%. Почти как человек!
Вот очень интересно было бы посмотреть на повторение эксперимента от Anthropic с их новой LLM.
Подписывайтесь на Telegram The Edinorog 🦄.
Источник: vc.ru





















