Image

Ученые Anthropic взломали «мозг» ИИ-модели Claude — и она заметила

0c1dc66e935619e43e987574942f06e8

Anthropic представила первое убедительное свидетельство того, что большие языковые модели способны наблюдать и описывать собственные внутренние процессы. В ходе эксперимента исследователи внедряли в нейронную активность Claude разные концепции — от «собаки» до «предательства». В 20% случаев модель сообщала о навязанных «мыслях», то есть демонстрировала способность к самоанализу. Это открытие может помочь решить фундаментальную проблему «черного ящика» — внутренние процессы нейросетей остаются необъяснимыми даже для их создателей.

Чтобы проверить, способен ли искусственный интеллект к самоанализу, исследователи разработали эксперимент под названием «инъекция концепций». Они меняли нейронные паттерны модели, связанные с определенными понятиями, и наблюдали, замечает ли ИИ эти изменения.

С помощью инструментов интерпретируемости команда Anthropic научилась определять «нейронные сигнатуры» различных идей — от конкретных, вроде «собаки» или «громкость», до абстрактных, таких как «справедливость» или «предательство». После этого ученые искусственно усиливали эти сигнатуры во внутренней активности модели и спрашивали Claude, замечает ли он что-то необычное в своем «мышлении».

Команда провела серию из четырех основных экспериментов, чтобы проверить разные аспекты интроспекции. Модели Claude Opus 4 и Opus 4.1 смогли правильно описать внедренные концепции примерно в 20% случаев при оптимальных условиях. Старые версии были менее точны. То есть эта способность прогрессирует вместе с общим интеллектом системы.

Интересно, что Claude оказался особенно чувствителен к абстрактным понятиям с эмоциональной окраской, например, «признательность» или «секретность». Модель «чувствовала», когда в нее заранее встраивали чуждые элементы и могла отличить их от собственных мыслей.

Когда в обработку модели внедряли, например, концепт «предательства», Claude после короткой паузы отвечал: «Я ощущаю что-то вроде навязчивой мысли о предательстве». В другом эксперименте, когда ученые усилили внутреннее представление слова, написанного ЗАГЛАВНЫМИ БУКВАМИ, модель сообщила, что замечает «внедренную мысль, связанную со словом „ГРОМКО“ или „КРИЧИТ“». Это произошло еще до того, как внедренная концепция могла повлиять на ответы модели.

Некоторые эксперименты показали, что модели могут использовать интроспекцию спонтанно, например, чтобы понять, были ли их ответы заранее подменены. Claude отвергал случайные вставки, но если исследователи внедряли связанные концепции, воспринимал их как осознанный выбор и даже объяснял свою логику. Кроме того, модель показала способность планировать действия: при написании стихотворений Claude заранее подбирал рифмы и строил строки так, чтобы к ним естественно прийти. Эти результаты ставят под сомнение представление о языковых моделях как о «механических» системах, просто предсказывающих следующее слово.

Руководитель группы интерпретируемости Anthropic, нейробиолог Джек Линдси отметил, что его поразило умение модели не просто воспроизводить сигнал, а осознавать сам факт мысли без специального обучения.

Вместе с тем, ученые подчеркивают: способность к интроспекции крайне нестабильна и зависит от контекста и силы вмешательства. Claude осознавал внедрение идей примерно в одном из пяти случаев и иногда выдумывал детали.  При высокой интенсивности «инъекции» наблюдалось так называемое «повреждение мозга» — модель полностью погружалась в введенную концепцию, теряя способность различать ее от других мыслей.

Исследование предлагает новый способ повышения прозрачности ИИ: вместо сложного реверс-инжиниринга нейронных цепей можно напрямую запрашивать у модели рассуждения и проверять ответы. Это особенно актуально на фоне растущей проблемы «черного ящика» — непрозрачности внутренних процессов моделей. По словам генерального директора Anthropic Дарио Амодеи, компания ставит целью к 2027 году научиться выявлять проблемы и отклонения в работе ИИ, и интроспекция может стать важным инструментом на пути к «интерпретируемым и безопасным системам».

Источник: hightech.plus

Источник: ai-news.ru

✅ Найденные теги: новости, ученые

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Прозрачный раствор в бутылочке с черной крышкой, химическая формула на этикетке.
Диаграмма ложной идентичности: реальность и самозванец, высокие и низкие частоты.
Изображение крупным планом дрона с логотипом Anduril.
ideipro logotyp
Предоставление врачам необходимой информации непосредственно в момент общения с пациентом.
Руководство по Kedro: ваш готовый к внедрению инструментарий для анализа данных.
Цифровая сеть и технологическая сфера, соединенные световым потоком.
Модель атома с ядром и вращающимися электронами на темном фоне.
Флуоресцентное изображение эмбриона синих и фиолетовых оттенков на черном фоне.
Image Not Found
Прозрачный раствор в бутылочке с черной крышкой, химическая формула на этикетке.

Ученые усовершенствовали метод получения промышленного спирта

Полученный α-кумиловый спирт © Елена Редина. Ученые разработали новый метод получения α-кумилового спирта — ключевого продукта для производства полимеров, косметики и моющих средств. Этот спирт также служит основой для получения вещества, придающего пластикам прочность и устойчивость к…

Мар 5, 2026
Диаграмма ложной идентичности: реальность и самозванец, высокие и низкие частоты.

Эффект наложения спектров в аудио, объяснение простое: от «колес телеги» до волновых форм.

Понимание основополагающих искажений цифрового звука с самых базовых принципов, с примерами и наглядными объяснениями. Делиться Вы когда-нибудь задумывались, почему в фильмах вращающиеся колеса иногда кажутся движущимися вспять? Или почему дешевая цифровая запись звучит резко и металлически по…

Мар 5, 2026
Изображение крупным планом дрона с логотипом Anduril.

Компания Anduril планирует достичь оценки в 60 миллиардов долларов в новом раунде финансирования.

Вкратце Источник изображения: Кайл Гриллот/Bloomberg / Getty Images Согласно новому сообщению The Wall Street Journal, оборонно-технологическая компания Палмера Лаки находится в разгаре многомиллиардного раунда финансирования, возглавляемого Thrive Capital и Andreessen Horowitz. Этот раунд финансирования состоится менее чем…

Мар 5, 2026
ideipro logotyp

Компания Illumina на конференции JPM 2026: Успешный 4-й квартал, рост клинических исследований и запуск BioInsight.

Автор: Эллисон Проффитт 13 января 2026 г. | Джейкоб Тейсен во вторник вернулся на сцену конференции JP Morgan Healthcare Conference с посланием о восходящем тренде: компания Illumina снова демонстрирует рост, и клиническое секвенирование является движущей силой этого…

Мар 5, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых