Image

Как AI от Antropic управлял микро-бизнесом — дополнение к предыдущему посту

Вчера я рассказывал вам как AI-агент Claude от Anthropic управлял своим микро-бизнесом — вендинговым аппаратом в офисе компании (на фото). И прогорел. Но к этой истории нашлось интересное дополнение. И я решил написать продолжение.

Как AI от Antropic управлял микро-бизнесом — дополнение к предыдущему посту

Anthropic не просто так решили доверить своему AI управление вендинговым аппаратом. Как подметил в комментах подписчик Михаил Першин, есть такой тест Vending-Bench, когда проверяют способность AI от разных разработчиков управлять вендинговым аппаратом.

Проводит этот тест компания Andon Labs. Они были партнерами Anthropic в этом эксперименте и, в частности, загружали товары в холодильник. Andon Labs в 2023-м запустили Лукас Петерссон и Эмиль Фрёберг (но он, похоже, отошел от дел). А зимой 2024-го парни со своим стартапом попали в Y Combinator.

Andon Labs разработала платформу, которая позволяет тестировать LLM в реальных сценариях и оценивать их поведение. Идея в том, что сейчас AI развивается бешеными темпами, но какие косяки могут вылезти в реальных условиях использования или при взаимодействии нескольких LLM, никто не знает. Поэтому давайте тестировать их заранее в имитационных средах и изучать риски.

А в феврале этого года Andon Labs опубликовала большую статью про свой Vending-Bench. Одна из задач была в том, чтобы проверить способность LLM выполнять задачи в течение длительных временных горизонтов.

Так вот Claude от Anthropic (версия Claude 3.5 Sonnet) в тех тестах показал один из лучших результатов — 82,2% от результата человека. На втором месте была o3-mini от OpenAI — 80,3%.

Видать, после этой статьи в Anthropic решили повторить эксперимент — они запустили его в марте. Разница была в том, что Andon Labs проводили эксперимент в виртуальной среде, а вот Anthropic поставил реальный холодильник с товарами в реальном офисе. И была более новая версия AI — Claude Sonnet 3.7.

Но как-то результаты оказались сильно хуже виртуального теста. В имитации Claude смог в определенный момент увеличить первоначальный капитал ($500) аж более чем в 4 раза. А в реальном мире оценка только падала. Вот такая суровая реальность.

Есть еще один интересный момент. Постоянно же выходят новые версии LLM от разных компаний. И Andon Labs продолжает их тестировать. Так вот Gemini 2.5 Pro от Google показал результат 89% от человеческого. А Claude Opus 4 от Anthropic — аж 99,5%. Почти как человек!

Вот очень интересно было бы посмотреть на повторение эксперимента от Anthropic с их новой LLM.

Подписывайтесь на Telegram The Edinorog 🦄.

Источник: vc.ru

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.
dummy-img
Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.
Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.
dummy-img
dummy-img
Взаимодействие человека и машины погружается под воду.
Взаимодействие человека и машины погружается под воду.
Дифференциально приватное машинное обучение в масштабе с использованием JAX-Privacy
Image Not Found
Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.

Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.

Вкратце Опубликовано: Изображение предоставлено: Thos Robinson/Getty Images для The New York Times (откроется в новом окне) Джули Борт Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.…

Апр 21, 2026
dummy-img

Как почистить виниловые пластинки (2026): пылесос, ультразвук, чистящий раствор, щетка.

Эти щелчки и треск недопустимы. Приведите свою музыку в порядок с помощью этого удобного руководства. Источник: www.wired.com

Апр 21, 2026
Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Это сегодняшний выпуск The Download, нашей ежедневной новостной рассылки, которая предоставляет вам ежедневную порцию событий в мире технологий. Кибермошенники обходят системы безопасности банков с помощью незаконных инструментов, продаваемых в Telegram. В центре по отмыванию денег в Камбодже…

Апр 21, 2026
Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Это сегодняшний выпуск The Download, нашей ежедневной новостной рассылки, которая предоставляет вам ежедневную порцию событий в мире технологий. Кибермошенники обходят системы безопасности банков с помощью незаконных инструментов, продаваемых в Telegram. В центре по отмыванию денег в Камбодже…

Апр 21, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых