Microsoft хотели доказать, что ИИ готов заменить офисных сотрудников, а…
Microsoft хотели доказать, что ИИ готов заменить офисных сотрудников, а в итоге доказали обратное.
Они собрали бенчмарк DELEGATE-52: 52 офисные профессии с типичной работой. Модели прогоняли через одну и ту же задачу: 20 раз подряд редактировать один и тот же документ, как делал бы живой сотрудник в течение рабочего дня.
Проверяли, что останется от исходного документа к концу цепочки правок.
И нейросети справились УЖАСНО: у флагманских моделей (Gemini 3.1 Pro, Claude 4.6 Opus, GPT-5.4) к концу терялось в среднем 25% содержимого документа. По всем моделям сразу — 50%.
Лучшая из всех, Gemini 3.1 Pro, оказалась пригодна для работы только в 11 профессиях из 52.
Самым интересным оказалось как именно ломаются модели. Слабые тупо стирают куски текста, а сильные тихо подменяют — цифры, даты, формулировки, важные оговорки. Документ выглядит готовым, пока кто-то не сверит с исходником.
Когда моделям дали полноценные инструменты (доступ к файлам, выполнение кода) — стало ещё на 6% хуже. Чем больше возможностей у агента, тем больше он успевает наломать 🤦♂️


Добавить комментарий
Для отправки комментария вам необходимо авторизоваться.