Image

Ученые Anthropic взломали «мозг» ИИ-модели Claude — и она заметила

0c1dc66e935619e43e987574942f06e8

Anthropic представила первое убедительное свидетельство того, что большие языковые модели способны наблюдать и описывать собственные внутренние процессы. В ходе эксперимента исследователи внедряли в нейронную активность Claude разные концепции — от «собаки» до «предательства». В 20% случаев модель сообщала о навязанных «мыслях», то есть демонстрировала способность к самоанализу. Это открытие может помочь решить фундаментальную проблему «черного ящика» — внутренние процессы нейросетей остаются необъяснимыми даже для их создателей.

Чтобы проверить, способен ли искусственный интеллект к самоанализу, исследователи разработали эксперимент под названием «инъекция концепций». Они меняли нейронные паттерны модели, связанные с определенными понятиями, и наблюдали, замечает ли ИИ эти изменения.

С помощью инструментов интерпретируемости команда Anthropic научилась определять «нейронные сигнатуры» различных идей — от конкретных, вроде «собаки» или «громкость», до абстрактных, таких как «справедливость» или «предательство». После этого ученые искусственно усиливали эти сигнатуры во внутренней активности модели и спрашивали Claude, замечает ли он что-то необычное в своем «мышлении».

Команда провела серию из четырех основных экспериментов, чтобы проверить разные аспекты интроспекции. Модели Claude Opus 4 и Opus 4.1 смогли правильно описать внедренные концепции примерно в 20% случаев при оптимальных условиях. Старые версии были менее точны. То есть эта способность прогрессирует вместе с общим интеллектом системы.

Интересно, что Claude оказался особенно чувствителен к абстрактным понятиям с эмоциональной окраской, например, «признательность» или «секретность». Модель «чувствовала», когда в нее заранее встраивали чуждые элементы и могла отличить их от собственных мыслей.

Когда в обработку модели внедряли, например, концепт «предательства», Claude после короткой паузы отвечал: «Я ощущаю что-то вроде навязчивой мысли о предательстве». В другом эксперименте, когда ученые усилили внутреннее представление слова, написанного ЗАГЛАВНЫМИ БУКВАМИ, модель сообщила, что замечает «внедренную мысль, связанную со словом „ГРОМКО“ или „КРИЧИТ“». Это произошло еще до того, как внедренная концепция могла повлиять на ответы модели.

Некоторые эксперименты показали, что модели могут использовать интроспекцию спонтанно, например, чтобы понять, были ли их ответы заранее подменены. Claude отвергал случайные вставки, но если исследователи внедряли связанные концепции, воспринимал их как осознанный выбор и даже объяснял свою логику. Кроме того, модель показала способность планировать действия: при написании стихотворений Claude заранее подбирал рифмы и строил строки так, чтобы к ним естественно прийти. Эти результаты ставят под сомнение представление о языковых моделях как о «механических» системах, просто предсказывающих следующее слово.

Руководитель группы интерпретируемости Anthropic, нейробиолог Джек Линдси отметил, что его поразило умение модели не просто воспроизводить сигнал, а осознавать сам факт мысли без специального обучения.

Вместе с тем, ученые подчеркивают: способность к интроспекции крайне нестабильна и зависит от контекста и силы вмешательства. Claude осознавал внедрение идей примерно в одном из пяти случаев и иногда выдумывал детали.  При высокой интенсивности «инъекции» наблюдалось так называемое «повреждение мозга» — модель полностью погружалась в введенную концепцию, теряя способность различать ее от других мыслей.

Исследование предлагает новый способ повышения прозрачности ИИ: вместо сложного реверс-инжиниринга нейронных цепей можно напрямую запрашивать у модели рассуждения и проверять ответы. Это особенно актуально на фоне растущей проблемы «черного ящика» — непрозрачности внутренних процессов моделей. По словам генерального директора Anthropic Дарио Амодеи, компания ставит целью к 2027 году научиться выявлять проблемы и отклонения в работе ИИ, и интроспекция может стать важным инструментом на пути к «интерпретируемым и безопасным системам».

Источник: hightech.plus

Источник: ai-news.ru

✅ Найденные теги: новости, ученые

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

ideipro logotyp
Предоставление врачам необходимой информации непосредственно в момент общения с пациентом.
Руководство по Kedro: ваш готовый к внедрению инструментарий для анализа данных.
Цифровая сеть и технологическая сфера, соединенные световым потоком.
Модель атома с ядром и вращающимися электронами на темном фоне.
Флуоресцентное изображение эмбриона синих и фиолетовых оттенков на черном фоне.
Компания GE HealthCare запускает новую ультразвуковую систему для диагностики сердечно-сосудистых заболеваний.
ideipro logotyp
Лидеры здравоохранения обсуждают «пузырь» искусственного интеллекта, часть 2 | MobiHealthNews
Image Not Found
ideipro logotyp

Компания Illumina на конференции JPM 2026: Успешный 4-й квартал, рост клинических исследований и запуск BioInsight.

Автор: Эллисон Проффитт 13 января 2026 г. | Джейкоб Тейсен во вторник вернулся на сцену конференции JP Morgan Healthcare Conference с посланием о восходящем тренде: компания Illumina снова демонстрирует рост, и клиническое секвенирование является движущей силой этого…

Мар 5, 2026
Предоставление врачам необходимой информации непосредственно в момент общения с пациентом.

Предоставление врачам необходимой информации непосредственно в момент общения с пациентом.

Преобразуя взаимодействие врача и пациента в полезную для клинического применения и оплачиваемую документацию, корпоративная платформа искусственного интеллекта Abridge снижает нагрузку на врачей в плане ведения документации и предотвращает профессиональное выгорание. Искусственный интеллект Изображение предоставлено компанией Abridge. Для…

Мар 5, 2026
Руководство по Kedro: ваш готовый к внедрению инструментарий для анализа данных.

Руководство по Kedro: ваш готовый к внедрению инструментарий для анализа данных.

В этой статье представлены и подробно рассмотрены основные функции Kedro, а также познакомят вас с его ключевыми концепциями для лучшего понимания перед тем, как углубиться в изучение этого фреймворка для решения реальных задач в области анализа данных.…

Мар 5, 2026
Цифровая сеть и технологическая сфера, соединенные световым потоком.

Разница между начинающими и опытными специалистами по анализу данных заключается не в коде.

Почему моя одержимость сложными алгоритмами на самом деле тормозила мою карьеру. Делиться Изображение предоставлено автором (создано с помощью Nano Banana Pro) Если вы потратите пять минут на LinkedIn или что-то подобное, вы заметите острую дискуссию в индустрии…

Мар 5, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых