ideipro logotyp

ИИ работники не смогли выполнить простую работу фрилансера

Совместная работа некоммерческой организации Center for AI Safety (CAIS) и компании Scale?AI привела к неутешительным выводам. В ходе эксперимента шесть ведущих ИИ?агентов прошли тестирование на симулированных фриланс?задачах. Результат оказался обескураживающим: ни один из участников не сумел выполнить более 3?% объёма работы. Если потенциальный доход от полного выполнения всех заданий оценивался в 143?991?доллар, то суммарный заработок ИИ?агентов составил лишь 1?810?долларов.

Для объективной оценки специалисты разработали специальный бенчмарк Remote?Labor?Index. Он имитирует реальные удалённые проекты из самых разных сфер — от разработки игр до анализа данных. Задача теста заключалась в том, чтобы выяснить, способны ли боты выполнять работу, имеющую реальную экономическую ценность.

Наилучший результат показал ИИ?агент китайского стартапа Manus, сумевший завершить 2,5?% назначенных проектов на уровне, приемлемом для реальной фриланс?работы. Не намного отстали Grok?4 (проект Илона Маска) и Claude?Sonnet?4.5 от Anthropic — оба продемонстрировали результат в 2,1?%. Примечательно, что Anthropic активно продвигает свою модель как «лучшую в мире для программирования» и «самую мощную для создания сложных агентов».

Новейшая модель GPT?5 от OpenAI, которую создатели характеризуют как «интеллект уровня PhD» и важный шаг к искусственному общему интеллекту (AGI), показала результат лишь в 1,7?%. При этом OpenAI определяет AGI как «высокоавтономные системы, превосходящие людей в большинстве экономически ценных работ» — критерий, которому GPT?5 явно не соответствует на практике.

ChatGPT?Agent от OpenAI занял предпоследнюю строчку рейтинга с показателем 1,3?%. Абсолютным аутсайдером оказался Gemini?2.5?Pro от Google, сумевший выполнить лишь 0,8?% поставленных задач.

Директор CAIS Дэн Хендрикс в интервью Wired подчеркнул, что полученные результаты должны дать более точное представление о реальных возможностях ИИ. Он также обозначил ключевые недостатки, которые продолжают ограничивать эффективность ИИ?агентов: отсутствие долгосрочной памяти, невозможность непрерывного обучения на собственном опыте и неспособность осваивать новые навыки в процессе работы — качества, естественные для любого человека.

Несмотря на очевидную ограниченность ИИ?решений, волна увольнений из?за внедрения искусственного интеллекта не спадает, а наоборот — набирает обороты. Многие компании, сократившие персонал в пользу автоматизированных систем, впоследствии вынуждены были вернуть сотрудников обратно, столкнувшись с низкой эффективностью ИИ?инструментов.

Данные подтверждаются результатами других исследований. Анализ MIT показал, что 95?% компаний, запустивших пилотные ИИ?инициативы, не зафиксировали значимого роста выручки. Другое исследование выявило, что массовое внедрение ИИ?инструментов привело к появлению большого объёма низкокачественного контента. Это не только замедлило рабочие процессы из?за необходимости многочисленных правок, но и породило напряжённость в коллективах, где сотрудникам приходилось исправлять ошибки, допущенные искусственным интеллектом.

Директор по исследованиям Scale?AI Бинг?Ли в беседе с Wired отметил, что долгие годы дискуссии об ИИ и рабочих местах носили преимущественно гипотетический характер. Теперь же практические тесты наглядно показывают: несмотря на громкие маркетинговые заявления и энтузиазм руководителей, ИИ?агенты пока не готовы заменить человеческий труд в большинстве экономически значимых задач.

Источник: www.goha.ru

Источник: ai-news.ru

✅ Найденные теги: ИИ, новости

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Человек в кожаной куртке демонстрирует процессор на футуристическом фоне.
ideipro logotyp
Отражение деревьев в воде озера, спокойная гладь.
ideipro logotyp
Цифровой компонент на фоне блокчейн-технологии и сетевых данных.
Пирамида факторов риска, симптомов и локаций для тропических заболеваний.
Улучшение моделей работы мозга с помощью ZAPBench
ideipro logotyp
Программирование в стиле Vibe с чрезмерно усердным ИИ: уроки, извлеченные из использования Google AI Studio как инструмента командной работы.
Image Not Found
Человек в кожаной куртке демонстрирует процессор на футуристическом фоне.

Дженсен Хуанг утверждает, что Nvidia сокращает свое участие в проектах OpenAI и Anthropic, но его объяснение порождает больше вопросов, чем дает ответов.

Автор изображения: Патрик Т. Фэллон / Contributor / Getty Images В среду на конференции Morgan Stanley по технологиям, медиа и телекоммуникациям в центре Сан-Франциско генеральный директор Nvidia Дженсен Хуанг заявил, что недавние инвестиции его компании в OpenAI…

Мар 5, 2026
ideipro logotyp

Лучшие терапевтические пистолеты Theragun и инструменты Therabody для более эффективного восстановления (2026)

От массажных пистолетов до компрессионных сапог и светодиодных масок для лица — это лучшие устройства в линейке оздоровительных продуктов Therabody. Источник: www.wired.com ✅ Найденные теги: Therabody, Theragun, Восстановление, Инструменты, Лучшие, новости, Терапевтические ПистолетыПохожие записиДженсен Хуанг утверждает, что…

Мар 5, 2026
Отражение деревьев в воде озера, спокойная гладь.

Загрузка: как ИИ меняет игру в го и загадка кибербезопасности

Это сегодняшний выпуск The Download, нашей ежедневной новостной рассылки, которая предоставляет вам ежедневную порцию событий в мире технологий. Искусственный интеллект меняет образ мышления лучших в мире игроков в го. Десять лет назад AlphaGo, программа искусственного интеллекта от…

Мар 5, 2026
ideipro logotyp

Материалы учредительного заседания Международного общества трактографии — IST 2025, Бордо.

arXiv:2602.12410v2 Тип объявления: replace-cross Аннотация: Данная подборка включает в себя тезисы докладов, представленных на постерных, презентационных и устных сессиях на первой конференции Международного общества трактографии (IST Conference 2025), состоявшейся в Бордо, Франция, с 13 по 16 октября…

Мар 5, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых