ideipro logotyp

ИИ работники не смогли выполнить простую работу фрилансера

Совместная работа некоммерческой организации Center for AI Safety (CAIS) и компании Scale?AI привела к неутешительным выводам. В ходе эксперимента шесть ведущих ИИ?агентов прошли тестирование на симулированных фриланс?задачах. Результат оказался обескураживающим: ни один из участников не сумел выполнить более 3?% объёма работы. Если потенциальный доход от полного выполнения всех заданий оценивался в 143?991?доллар, то суммарный заработок ИИ?агентов составил лишь 1?810?долларов.

Для объективной оценки специалисты разработали специальный бенчмарк Remote?Labor?Index. Он имитирует реальные удалённые проекты из самых разных сфер — от разработки игр до анализа данных. Задача теста заключалась в том, чтобы выяснить, способны ли боты выполнять работу, имеющую реальную экономическую ценность.

Наилучший результат показал ИИ?агент китайского стартапа Manus, сумевший завершить 2,5?% назначенных проектов на уровне, приемлемом для реальной фриланс?работы. Не намного отстали Grok?4 (проект Илона Маска) и Claude?Sonnet?4.5 от Anthropic — оба продемонстрировали результат в 2,1?%. Примечательно, что Anthropic активно продвигает свою модель как «лучшую в мире для программирования» и «самую мощную для создания сложных агентов».

Новейшая модель GPT?5 от OpenAI, которую создатели характеризуют как «интеллект уровня PhD» и важный шаг к искусственному общему интеллекту (AGI), показала результат лишь в 1,7?%. При этом OpenAI определяет AGI как «высокоавтономные системы, превосходящие людей в большинстве экономически ценных работ» — критерий, которому GPT?5 явно не соответствует на практике.

ChatGPT?Agent от OpenAI занял предпоследнюю строчку рейтинга с показателем 1,3?%. Абсолютным аутсайдером оказался Gemini?2.5?Pro от Google, сумевший выполнить лишь 0,8?% поставленных задач.

Директор CAIS Дэн Хендрикс в интервью Wired подчеркнул, что полученные результаты должны дать более точное представление о реальных возможностях ИИ. Он также обозначил ключевые недостатки, которые продолжают ограничивать эффективность ИИ?агентов: отсутствие долгосрочной памяти, невозможность непрерывного обучения на собственном опыте и неспособность осваивать новые навыки в процессе работы — качества, естественные для любого человека.

Несмотря на очевидную ограниченность ИИ?решений, волна увольнений из?за внедрения искусственного интеллекта не спадает, а наоборот — набирает обороты. Многие компании, сократившие персонал в пользу автоматизированных систем, впоследствии вынуждены были вернуть сотрудников обратно, столкнувшись с низкой эффективностью ИИ?инструментов.

Данные подтверждаются результатами других исследований. Анализ MIT показал, что 95?% компаний, запустивших пилотные ИИ?инициативы, не зафиксировали значимого роста выручки. Другое исследование выявило, что массовое внедрение ИИ?инструментов привело к появлению большого объёма низкокачественного контента. Это не только замедлило рабочие процессы из?за необходимости многочисленных правок, но и породило напряжённость в коллективах, где сотрудникам приходилось исправлять ошибки, допущенные искусственным интеллектом.

Директор по исследованиям Scale?AI Бинг?Ли в беседе с Wired отметил, что долгие годы дискуссии об ИИ и рабочих местах носили преимущественно гипотетический характер. Теперь же практические тесты наглядно показывают: несмотря на громкие маркетинговые заявления и энтузиазм руководителей, ИИ?агенты пока не готовы заменить человеческий труд в большинстве экономически значимых задач.

Источник: www.goha.ru

Источник: ai-news.ru

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

СОСТОЯЛОСЬ ЗАСЕДАНИЕ МЕТОДИЧЕСКОГО СОВЕТА, ПОСВЯЩЕННОЕ ПОКОЛЕНИЮ «РОЖДЕННЫХ ЦИФРОВЫМИ»
СОСТОЯЛОСЬ ЗАСЕДАНИЕ МЕТОДИЧЕСКОГО СОВЕТА, ПОСВЯЩЕННОЕ ПОКОЛЕНИЮ «РОЖДЕННЫХ ЦИФРОВЫМИ»
Биофизический мир внутри переполненной клетки
Появились новые доказательства того, как одиночество влияет на память в пожилом возрасте.
NVIDIA ReSTIR PR Enhanced повышает производительность трассировки пути в три раза
«Слишком сложно и дорого»: могли ли американцы сымитировать полет к Луне с помощью ИИ
«Слишком сложно и дорого»: могли ли американцы сымитировать полет к Луне с помощью ИИ
L-эрготиоин: антиоксидант, содержащийся в грибах, может воздействовать на клетки матки, облегчая менструальные боли.
L-эрготиоин: антиоксидант, содержащийся в грибах, может воздействовать на клетки матки, облегчая менструальные боли.
Image Not Found
СОСТОЯЛОСЬ ЗАСЕДАНИЕ МЕТОДИЧЕСКОГО СОВЕТА, ПОСВЯЩЕННОЕ ПОКОЛЕНИЮ «РОЖДЕННЫХ ЦИФРОВЫМИ»

СОСТОЯЛОСЬ ЗАСЕДАНИЕ МЕТОДИЧЕСКОГО СОВЕТА, ПОСВЯЩЕННОЕ ПОКОЛЕНИЮ «РОЖДЕННЫХ ЦИФРОВЫМИ»

19 февраля 2026 года прошло заседание Методического совета, посвященное теме «“Рожденные цифровыми” как субъекты учения: специфика и ее учет в преподавании». В мероприятии участвовали члены Методсовета, проректор по учебной работе, начальник УМУ, а также коллеги с филологического,…

Апр 21, 2026
СОСТОЯЛОСЬ ЗАСЕДАНИЕ МЕТОДИЧЕСКОГО СОВЕТА, ПОСВЯЩЕННОЕ ПОКОЛЕНИЮ «РОЖДЕННЫХ ЦИФРОВЫМИ»

СОСТОЯЛОСЬ ЗАСЕДАНИЕ МЕТОДИЧЕСКОГО СОВЕТА, ПОСВЯЩЕННОЕ ПОКОЛЕНИЮ «РОЖДЕННЫХ ЦИФРОВЫМИ»

19 февраля 2026 года прошло заседание Методического совета, посвященное теме «“Рожденные цифровыми” как субъекты учения: специфика и ее учет в преподавании». В мероприятии участвовали члены Методсовета, проректор по учебной работе, начальник УМУ, а также коллеги с филологического,…

Апр 21, 2026
NVIDIA ReSTIR PR Enhanced повышает производительность трассировки пути в три раза

NVIDIA ReSTIR PR Enhanced повышает производительность трассировки пути в три раза

Исследователи NVIDIA пытаются найти способы повысить производительность ресурсозатратной трассировки пути, которая по сей день остаётся очень тяжёлой нагрузкой даже для лучших игровых видеокарт. К счастью, им удалось найти один из вариантов, как можно не только поднять FPS,…

Апр 21, 2026
Многоразовая ракета New Glenn компании Blue Origin успешно приземлилась, но доставка полезной нагрузки не удалась.

Многоразовая ракета New Glenn компании Blue Origin успешно приземлилась, но доставка полезной нагрузки не удалась.

Однако ей не удалось доставить полезную нагрузку с космической вышки сотовой связи. Теренс О'Брайен, редактор раздела «Выходные». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего…

Апр 20, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых