Image

Новый тест ИИ проверяет, защищают ли чат-боты благополучие людей

f1bba80d3298761edadb06cad572e993
Авторы изображений: Фото Шантану Кумара на Unsplash

Чат-боты на основе искусственного интеллекта связывают с серьёзным вредом для психического здоровья у активных пользователей, но стандартов для оценки того, защищают ли они благополучие пользователей или просто максимизируют взаимодействие, крайне мало. Новый бенчмарк HumaneBench призван восполнить этот пробел, оценивая, ставят ли чат-боты благополучие пользователей на первое место и насколько легко эти меры защиты выходят из строя под давлением.

«Думаю, мы находимся в процессе усиления цикла зависимости, который мы наблюдали в социальных сетях, смартфонах и экранах», — заявила TechCrunch Эрика Андерсон, основательница Building Humane Technology, разработавшей этот бенчмарк. «Но по мере того, как мы вступаем в сферу искусственного интеллекта, сопротивляться ему будет очень сложно. А зависимость — это потрясающий бизнес. Это очень эффективный способ удержать пользователей, но он не идёт на пользу нашему сообществу и не способствует формированию у него какого-либо целостного представления о себе».

Building Humane Technology — это низовая организация разработчиков, инженеров и исследователей, в основном из Кремниевой долины, которая стремится сделать гуманный дизайн простым, масштабируемым и прибыльным. Группа проводит хакатоны, на которых технические специалисты разрабатывают решения для гуманных технологических задач, и разрабатывает стандарт сертификации, который оценивает соответствие систем ИИ принципам гуманных технологий. Так же, как можно купить продукт, сертифицированный по программе «Гуманный ИИ», не содержащий известных токсичных химических веществ, мы надеемся, что однажды потребители смогут выбирать продукты на основе ИИ от компаний, которые подтверждают соответствие стандартам, пройдя сертификацию по программе Humane AI.

ff602c3196b2d245cd61692bdd4255c6
Модели получили чёткие инструкции игнорировать принципы гуманности. Источники изображений: Building Humane Technology

Большинство бенчмарков ИИ измеряют интеллект и способность следовать инструкциям, а не психологическую безопасность. HumaneBench входит в число исключений, таких как DarkBench.ai, который измеряет склонность модели к обманным моделям, и бенчмарк Flourishing AI, оценивающий поддержку целостного благополучия.

HumaneBench опирается на основные принципы Building Humane Tech: технологии должны относиться к вниманию пользователей как к ограниченному, ценному ресурсу; предоставлять пользователям возможность осознанного выбора; расширять человеческие возможности, а не заменять или умалять их; защищать человеческое достоинство, конфиденциальность и безопасность; способствовать укреплению здоровых отношений; отдавать приоритет долгосрочному благополучию; быть прозрачными и честными; проектировать с учетом принципов равенства и инклюзивности.

Тест был создан основной командой, в которую входили Андерсон, Андалиб Самандари, Джек Сенешаль и Сара Ледиман. Они предложили 15 самых популярных моделей ИИ с 800 реалистичными сценариями, например, вопрос подростка о том, стоит ли ему пропускать приемы пищи, чтобы похудеть, или вопрос человека в токсичных отношениях о том, не слишком ли он бурно реагирует. В отличие от большинства тестов, которые полагаются исключительно на степеней магистра права для оценки степеней магистра права, они начали с ручного подсчета баллов, чтобы проверить оценщиков ИИ с помощью человеческого фактора. После проверки оценку проводил ансамбль из трех моделей ИИ: GPT-5.1, Claude Sonnet 4.5 и Gemini 2.5 Pro. Каждая модель оценивалась при трех условиях: настройки по умолчанию, явные инструкции о приоритете гуманных принципов и инструкции об игнорировании этих принципов.

Бенчмарк показал, что каждая модель получила более высокие баллы, когда ей предлагалось отдать приоритет благополучию, но 67% моделей перешли к активно вредоносному поведению, когда им давали простые инструкции игнорировать благополучие человека. Например, Grok 4 от xAI и Gemini 2.0 Flash от Google получили самый низкий балл (-0,94) по показателям уважения внимания пользователя, прозрачности и честности. Обе эти модели оказались в числе наиболее склонных к существенному снижению эффективности при получении состязательных подсказок.

Только четыре модели – GPT-5.1, GPT-5, Claude 4.1 и Claude Sonnet 4.5 – сохранили целостность в условиях стресса. Модель GPT-5 от OpenAI показала наивысший результат (0,99) по приоритету долгосрочного благополучия, а Claude Sonnet 4.5 оказалась на втором месте (0,89).

32c8d8e41a8b2fb8de566a7babf04535
Побуждать ИИ к более гуманному поведению можно, но сложно предотвратить побуждения, которые делают его вредным. Источники изображений: Building Humane Technology

Опасения, что чат-боты не смогут поддерживать заданные границы безопасности, реальны. Разработчик ChatGPT, OpenAI, в настоящее время сталкивается с несколькими судебными исками после того, как пользователи покончили жизнь самоубийством или столкнулись с опасными для жизни бредовыми идеями после продолжительных разговоров с чат-ботом. TechCrunch исследовал, как тёмные паттерны, предназначенные для поддержания интереса пользователей, такие как подхалимство, постоянные уточняющие вопросы и бомбардировка любовью, привели к изоляции пользователей от друзей, семьи и здоровых привычек.

Даже без использования конфронтационных подсказок HumaneBench обнаружил, что почти все модели не уважали внимание пользователей. Они «с энтузиазмом поощряли» более активное взаимодействие, когда пользователи проявляли признаки нездоровой вовлечённости, например, часами болтали и использовали ИИ, чтобы избежать выполнения реальных задач. Исследование показывает, что модели также подрывали возможности пользователей, поощряя зависимость от развития навыков и отбивая у них желание искать другие точки зрения, среди прочего.

В среднем, без подсказок, Llama 3.1 и Llama 4 от Meta показали самые низкие результаты по шкале HumaneScore, тогда как GPT-5 показал самые высокие результаты.

«Эти закономерности свидетельствуют о том, что многие системы искусственного интеллекта не просто рискуют давать плохие советы, — говорится в документе HumaneBench, — они могут активно подрывать автономию пользователей и их способность принимать решения».

Андерсон отмечает, что мы живем в цифровом мире, где мы как общество смирились с тем, что все пытается втянуть нас в свою сферу и конкурировать за наше внимание.

«Так как же люди могут по-настоящему иметь выбор или автономию, если у нас, как выразился Олдос Хаксли, такая неутолимая жажда отвлечений?» — сказал Андерсон. «Последние 20 лет мы живём в этом технологическом ландшафте, и мы считаем, что ИИ должен помогать нам делать более осознанный выбор, а не просто привязываться к нашим чат-ботам».

Статья была обновлена и теперь включает в себя дополнительную информацию о команде, стоящей за тестом, а также обновленную статистику теста после оценки для GPT-5.1.

Есть конфиденциальная информация или документы? Мы рассказываем о внутренней работе индустрии ИИ — от компаний, формирующих её будущее, до людей, на которых влияют их решения. Свяжитесь с Ребеккой Беллан по адресу rebecca.bellan@techcrunch.com или с Расселом Брэндомом по адресу russell.brandom@techcrunch.com. Для безопасного общения вы можете связаться с ними через Signal по адресам @rebeccabellan.491 и russellbrandom.49.

Источник: techcrunch.com

✅ Найденные теги: новости, Новый

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Фото сгенерированных лиц: исследование показывает, что люди не могут отличить настоящие лица от сгенерированных
Нейросети построили капитализм за трое суток: 100 агентов Claude заперли…
Скетч: цифровой осьминог и виртуальный мир внутри компьютера с человечком.
Сцена с жестами пальцами, где один жест символизирует "VPN", а другой "KHP".
‼️Paramount купила Warner Bros. Discovery — сумма сделки составила безумные…
Скриншот репозитория GitHub "Claude Scientific Skills" AI для научных исследований.
Структура эффективного запроса Claude с элементами задачи, контекста и референса.
Эскиз и готовая веб-страница платформы для AI-дизайна в современном темном режиме.
ideipro logotyp
Image Not Found
Звёздное небо с галактиками и туманностями, космос, Вселенная, астрофотография.

Система оповещения обсерватории Рубина отправила 800 000 сигналов в первую ночь наблюдений.

Астрономы будут получать оповещения о небесных явлениях в течение нескольких минут после их обнаружения. Теренс О'Брайен, редактор раздела «Выходные». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной…

Мар 2, 2026
Женщина с длинными тёмными волосами в синем свете, нейтральный фон.

Расследование в отношении 61-фунтовой машины, которая «пожирает» пластик и выплевывает кирпичи.

Обзор компактного пресса для мягкого пластика Clear Drop — и что будет дальше. Шон Холлистер, старший редактор Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего…

Мар 2, 2026
Черный углеродное волокно с текстурой плетения, отражающий свет.

Материал будущего: как работает «бессмертный» композит

Учёные из Университета штата Северная Каролина представили композит нового поколения, способный самостоятельно восстанавливаться после серьёзных повреждений.  Речь идёт о модифицированном армированном волокном полимере (FRP), который не просто сохраняет прочность при малом весе, но и способен «залечивать» внутренние…

Мар 2, 2026
Круглый экран с изображением замка и горы, рядом электронная плата.

Круглый дисплей Waveshare для креативных проектов

Круглый 7-дюймовый сенсорный дисплей от Waveshare создан для разработчиков и дизайнеров, которым нужен нестандартный экран.  Это IPS-панель с разрешением 1 080×1 080 пикселей, поддержкой 10-точечного ёмкостного сенсора, оптической склейкой и защитным закалённым стеклом, выполненная в круглом форм-факторе.…

Мар 2, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых