Microsoft хотели доказать, что ИИ готов заменить офисных сотрудников, а…

18.05.2026

Microsoft хотели доказать, что ИИ готов заменить офисных сотрудников, а в итоге доказали обратное.

Они собрали бенчмарк DELEGATE-52: 52 офисные профессии с типичной работой. Модели прогоняли через одну и ту же задачу: 20 раз подряд редактировать один и тот же документ, как делал бы живой сотрудник в течение рабочего дня.

Проверяли, что останется от исходного документа к концу цепочки правок.

И нейросети справились УЖАСНО: у флагманских моделей (Gemini 3.1 Pro, Claude 4.6 Opus, GPT-5.4) к концу терялось в среднем 25% содержимого документа. По всем моделям сразу — 50%.

Лучшая из всех, Gemini 3.1 Pro, оказалась пригодна для работы только в 11 профессиях из 52.

Самым интересным оказалось как именно ломаются модели. Слабые тупо стирают куски текста, а сильные тихо подменяют — цифры, даты, формулировки, важные оговорки. Документ выглядит готовым, пока кто-то не сверит с исходником.

Когда моделям дали полноценные инструменты (доступ к файлам, выполнение кода) — стало ещё на 6% хуже. Чем больше возможностей у агента, тем больше он успевает наломать 🤦‍♂️

Оцените материал:

Читайте также

Оставить комментарий Отменить ответ

Для отправки комментария вам необходимо авторизоваться.

Microsoft хотели доказать, что ИИ готов заменить офисных сотрудников, а…

Оставить комментарий Отменить ответ

🤖 Нельсон AI

Гайды и руководства по ИИ

Похожие записи

Похожие записи

Уимблдон 2026: расписание, как смотреть теннисный турнир из любой точки мира.

Профориентация должна быть в центре внимания заключительного отчета Алана Милберна о программе NEET | Письма читателей

Учет особенностей крупных ледяных образований поможет рассчитать нагрузки на суда и морские сооружения: Науки о Земле

Оставить комментарий Отменить ответ

Присоединяйтесь и подпишитесь на рассылку самых свежих новостей по Email

🤖 Нельсон AI