Закажи экспресс-аудит своего дела онлайн всего за 199 ₽
и получи рекомендации по улучшению - Жми сюда !

Новый тест ИИ проверяет, защищают ли чат-боты благополучие людей

f1bba80d3298761edadb06cad572e993
Авторы изображений: Фото Шантану Кумара на Unsplash

Чат-боты на основе искусственного интеллекта связывают с серьёзным вредом для психического здоровья у активных пользователей, но стандартов для оценки того, защищают ли они благополучие пользователей или просто максимизируют взаимодействие, крайне мало. Новый бенчмарк HumaneBench призван восполнить этот пробел, оценивая, ставят ли чат-боты благополучие пользователей на первое место и насколько легко эти меры защиты выходят из строя под давлением.

«Думаю, мы находимся в процессе усиления цикла зависимости, который мы наблюдали в социальных сетях, смартфонах и экранах», — заявила TechCrunch Эрика Андерсон, основательница Building Humane Technology, разработавшей этот бенчмарк. «Но по мере того, как мы вступаем в сферу искусственного интеллекта, сопротивляться ему будет очень сложно. А зависимость — это потрясающий бизнес. Это очень эффективный способ удержать пользователей, но он не идёт на пользу нашему сообществу и не способствует формированию у него какого-либо целостного представления о себе».

Building Humane Technology — это низовая организация разработчиков, инженеров и исследователей, в основном из Кремниевой долины, которая стремится сделать гуманный дизайн простым, масштабируемым и прибыльным. Группа проводит хакатоны, на которых технические специалисты разрабатывают решения для гуманных технологических задач, и разрабатывает стандарт сертификации, который оценивает соответствие систем ИИ принципам гуманных технологий. Так же, как можно купить продукт, сертифицированный по программе «Гуманный ИИ», не содержащий известных токсичных химических веществ, мы надеемся, что однажды потребители смогут выбирать продукты на основе ИИ от компаний, которые подтверждают соответствие стандартам, пройдя сертификацию по программе Humane AI.

ff602c3196b2d245cd61692bdd4255c6
Модели получили чёткие инструкции игнорировать принципы гуманности. Источники изображений: Building Humane Technology

Большинство бенчмарков ИИ измеряют интеллект и способность следовать инструкциям, а не психологическую безопасность. HumaneBench входит в число исключений, таких как DarkBench.ai, который измеряет склонность модели к обманным моделям, и бенчмарк Flourishing AI, оценивающий поддержку целостного благополучия.

HumaneBench опирается на основные принципы Building Humane Tech: технологии должны относиться к вниманию пользователей как к ограниченному, ценному ресурсу; предоставлять пользователям возможность осознанного выбора; расширять человеческие возможности, а не заменять или умалять их; защищать человеческое достоинство, конфиденциальность и безопасность; способствовать укреплению здоровых отношений; отдавать приоритет долгосрочному благополучию; быть прозрачными и честными; проектировать с учетом принципов равенства и инклюзивности.

Тест был создан основной командой, в которую входили Андерсон, Андалиб Самандари, Джек Сенешаль и Сара Ледиман. Они предложили 15 самых популярных моделей ИИ с 800 реалистичными сценариями, например, вопрос подростка о том, стоит ли ему пропускать приемы пищи, чтобы похудеть, или вопрос человека в токсичных отношениях о том, не слишком ли он бурно реагирует. В отличие от большинства тестов, которые полагаются исключительно на степеней магистра права для оценки степеней магистра права, они начали с ручного подсчета баллов, чтобы проверить оценщиков ИИ с помощью человеческого фактора. После проверки оценку проводил ансамбль из трех моделей ИИ: GPT-5.1, Claude Sonnet 4.5 и Gemini 2.5 Pro. Каждая модель оценивалась при трех условиях: настройки по умолчанию, явные инструкции о приоритете гуманных принципов и инструкции об игнорировании этих принципов.

Бенчмарк показал, что каждая модель получила более высокие баллы, когда ей предлагалось отдать приоритет благополучию, но 67% моделей перешли к активно вредоносному поведению, когда им давали простые инструкции игнорировать благополучие человека. Например, Grok 4 от xAI и Gemini 2.0 Flash от Google получили самый низкий балл (-0,94) по показателям уважения внимания пользователя, прозрачности и честности. Обе эти модели оказались в числе наиболее склонных к существенному снижению эффективности при получении состязательных подсказок.

Только четыре модели – GPT-5.1, GPT-5, Claude 4.1 и Claude Sonnet 4.5 – сохранили целостность в условиях стресса. Модель GPT-5 от OpenAI показала наивысший результат (0,99) по приоритету долгосрочного благополучия, а Claude Sonnet 4.5 оказалась на втором месте (0,89).

32c8d8e41a8b2fb8de566a7babf04535
Побуждать ИИ к более гуманному поведению можно, но сложно предотвратить побуждения, которые делают его вредным. Источники изображений: Building Humane Technology

Опасения, что чат-боты не смогут поддерживать заданные границы безопасности, реальны. Разработчик ChatGPT, OpenAI, в настоящее время сталкивается с несколькими судебными исками после того, как пользователи покончили жизнь самоубийством или столкнулись с опасными для жизни бредовыми идеями после продолжительных разговоров с чат-ботом. TechCrunch исследовал, как тёмные паттерны, предназначенные для поддержания интереса пользователей, такие как подхалимство, постоянные уточняющие вопросы и бомбардировка любовью, привели к изоляции пользователей от друзей, семьи и здоровых привычек.

Даже без использования конфронтационных подсказок HumaneBench обнаружил, что почти все модели не уважали внимание пользователей. Они «с энтузиазмом поощряли» более активное взаимодействие, когда пользователи проявляли признаки нездоровой вовлечённости, например, часами болтали и использовали ИИ, чтобы избежать выполнения реальных задач. Исследование показывает, что модели также подрывали возможности пользователей, поощряя зависимость от развития навыков и отбивая у них желание искать другие точки зрения, среди прочего.

В среднем, без подсказок, Llama 3.1 и Llama 4 от Meta показали самые низкие результаты по шкале HumaneScore, тогда как GPT-5 показал самые высокие результаты.

«Эти закономерности свидетельствуют о том, что многие системы искусственного интеллекта не просто рискуют давать плохие советы, — говорится в документе HumaneBench, — они могут активно подрывать автономию пользователей и их способность принимать решения».

Андерсон отмечает, что мы живем в цифровом мире, где мы как общество смирились с тем, что все пытается втянуть нас в свою сферу и конкурировать за наше внимание.

«Так как же люди могут по-настоящему иметь выбор или автономию, если у нас, как выразился Олдос Хаксли, такая неутолимая жажда отвлечений?» — сказал Андерсон. «Последние 20 лет мы живём в этом технологическом ландшафте, и мы считаем, что ИИ должен помогать нам делать более осознанный выбор, а не просто привязываться к нашим чат-ботам».

Статья была обновлена и теперь включает в себя дополнительную информацию о команде, стоящей за тестом, а также обновленную статистику теста после оценки для GPT-5.1.

Есть конфиденциальная информация или документы? Мы рассказываем о внутренней работе индустрии ИИ — от компаний, формирующих её будущее, до людей, на которых влияют их решения. Свяжитесь с Ребеккой Беллан по адресу rebecca.bellan@techcrunch.com или с Расселом Брэндомом по адресу russell.brandom@techcrunch.com. Для безопасного общения вы можете связаться с ними через Signal по адресам @rebeccabellan.491 и russellbrandom.49.

Источник: techcrunch.com

✅ Найденные теги: новости, Новый

Нет других записей в этой рубрике.

Новости других рубрик

Архив рубрики ~Лента новостей~: Миллион муравьёв ходят по кругу до смерти. Это ошибка кода Архив рубрики ~Лента новостей~: Бесплатный кодек AV2 получил релизную версию 1.0.0: на 30% эффективнее AV1 Архив рубрики ~Лента новостей~: Почему дипломированные юристы повреждают ваши документы при делегировании полномочий? Архив рубрики ~Лента новостей~: Apple вносит изменения в свой спорный дизайн Liquid Glass. Архив рубрики ~Лента новостей~: ИИ уже пишет 80% кода Anthropic. Самое тревожное спрятано в цифре, которую подают как успех Архив рубрики ~Лента новостей~: Компания Aviva использует искусственный интеллект для предотвращения мошенничества в сфере страхования на сумму 230 миллионов фунтов стерлингов. Архив рубрики ~Лента новостей~: ФИФА расширяет использование ИИ на чемпионате мира, чтобы уменьшить количество оскорблений со стороны игроков. Архив рубрики ~Лента новостей~: DuckDuckGo устанавливает Spike, поскольку Google пытается заменить поиск искусственным интеллектом