ideipro logotyp

ИИ работники не смогли выполнить простую работу фрилансера

Совместная работа некоммерческой организации Center for AI Safety (CAIS) и компании Scale?AI привела к неутешительным выводам. В ходе эксперимента шесть ведущих ИИ?агентов прошли тестирование на симулированных фриланс?задачах. Результат оказался обескураживающим: ни один из участников не сумел выполнить более 3?% объёма работы. Если потенциальный доход от полного выполнения всех заданий оценивался в 143?991?доллар, то суммарный заработок ИИ?агентов составил лишь 1?810?долларов.

Для объективной оценки специалисты разработали специальный бенчмарк Remote?Labor?Index. Он имитирует реальные удалённые проекты из самых разных сфер — от разработки игр до анализа данных. Задача теста заключалась в том, чтобы выяснить, способны ли боты выполнять работу, имеющую реальную экономическую ценность.

Наилучший результат показал ИИ?агент китайского стартапа Manus, сумевший завершить 2,5?% назначенных проектов на уровне, приемлемом для реальной фриланс?работы. Не намного отстали Grok?4 (проект Илона Маска) и Claude?Sonnet?4.5 от Anthropic — оба продемонстрировали результат в 2,1?%. Примечательно, что Anthropic активно продвигает свою модель как «лучшую в мире для программирования» и «самую мощную для создания сложных агентов».

Новейшая модель GPT?5 от OpenAI, которую создатели характеризуют как «интеллект уровня PhD» и важный шаг к искусственному общему интеллекту (AGI), показала результат лишь в 1,7?%. При этом OpenAI определяет AGI как «высокоавтономные системы, превосходящие людей в большинстве экономически ценных работ» — критерий, которому GPT?5 явно не соответствует на практике.

ChatGPT?Agent от OpenAI занял предпоследнюю строчку рейтинга с показателем 1,3?%. Абсолютным аутсайдером оказался Gemini?2.5?Pro от Google, сумевший выполнить лишь 0,8?% поставленных задач.

Директор CAIS Дэн Хендрикс в интервью Wired подчеркнул, что полученные результаты должны дать более точное представление о реальных возможностях ИИ. Он также обозначил ключевые недостатки, которые продолжают ограничивать эффективность ИИ?агентов: отсутствие долгосрочной памяти, невозможность непрерывного обучения на собственном опыте и неспособность осваивать новые навыки в процессе работы — качества, естественные для любого человека.

Несмотря на очевидную ограниченность ИИ?решений, волна увольнений из?за внедрения искусственного интеллекта не спадает, а наоборот — набирает обороты. Многие компании, сократившие персонал в пользу автоматизированных систем, впоследствии вынуждены были вернуть сотрудников обратно, столкнувшись с низкой эффективностью ИИ?инструментов.

Данные подтверждаются результатами других исследований. Анализ MIT показал, что 95?% компаний, запустивших пилотные ИИ?инициативы, не зафиксировали значимого роста выручки. Другое исследование выявило, что массовое внедрение ИИ?инструментов привело к появлению большого объёма низкокачественного контента. Это не только замедлило рабочие процессы из?за необходимости многочисленных правок, но и породило напряжённость в коллективах, где сотрудникам приходилось исправлять ошибки, допущенные искусственным интеллектом.

Директор по исследованиям Scale?AI Бинг?Ли в беседе с Wired отметил, что долгие годы дискуссии об ИИ и рабочих местах носили преимущественно гипотетический характер. Теперь же практические тесты наглядно показывают: несмотря на громкие маркетинговые заявления и энтузиазм руководителей, ИИ?агенты пока не готовы заменить человеческий труд в большинстве экономически значимых задач.

Источник: www.goha.ru

Источник: ai-news.ru

✅ Найденные теги: ИИ, новости

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Компания GE HealthCare запускает новую ультразвуковую систему для диагностики сердечно-сосудистых заболеваний.
ideipro logotyp
Лидеры здравоохранения обсуждают «пузырь» искусственного интеллекта, часть 2 | MobiHealthNews
Смартфон с открытым сайтом Medicare.gov на экране, онлайн-сервис здравоохранения.
ideipro logotyp
Ноутбук с программой редактирования изображений, яркое фото человека в синем плаще.
Человек в кожаной куртке демонстрирует процессор на футуристическом фоне.
ideipro logotyp
Отражение деревьев в воде озера, спокойная гладь.
Image Not Found
Компания GE HealthCare запускает новую ультразвуковую систему для диагностики сердечно-сосудистых заболеваний.

Компания GE HealthCare запускает новую ультразвуковую систему для диагностики сердечно-сосудистых заболеваний.

Компания GE HealthCare недавно получила маркировку CE и разрешение FDA 510(k) на свою систему. Фото: Poetra.RH / Shutterstock.com. Компания GE HealthCare представила Vivid Pioneer, новую систему ультразвуковой диагностики сердечно-сосудистой системы, которая использует искусственный интеллект для повышения скорости…

Мар 5, 2026
ideipro logotyp

Компания Оно прекратила разработку препарата Deciphera для лечения солидных опухолей на ранних стадиях по стратегическим причинам.

Дочерняя компания Ono Pharmaceutical, Deciphera Pharmaceuticals, исключила из своего портфеля разработок препарат, находящийся на ранней стадии разработки, для лечения запущенных форм рака. DCC-3084, пан-ингибитор RAF, «больше не входит в наш портфель разработок, и в настоящее время мы…

Мар 5, 2026
Лидеры здравоохранения обсуждают «пузырь» искусственного интеллекта, часть 2 | MobiHealthNews

Лидеры здравоохранения обсуждают «пузырь» искусственного интеллекта, часть 2 | MobiHealthNews

Наряду с опасениями по поводу ИИ, руководители медицинских учреждений заявляют, что эта технология имеет долгосрочный потенциал для улучшения клинических процессов и результатов лечения пациентов, поэтому 2025 год станет годом как энтузиазма, так и осторожного анализа. ИИ Фото:…

Мар 5, 2026
Смартфон с открытым сайтом Medicare.gov на экране, онлайн-сервис здравоохранения.

STAT+: Достаточно ли платит программа Medicare ACCESS?

Вы читаете веб-версию издания STAT о технологиях в здравоохранении. Управление оповещениями для этой статьи Отправить эту статью по электронной почте Поделитесь этой статьей Adobe Вы читаете веб-версию информационного бюллетеня STAT о технологиях в здравоохранении — нашего руководства…

Мар 5, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых