Image

Ученые Anthropic взломали «мозг» ИИ-модели Claude — и она заметила

0c1dc66e935619e43e987574942f06e8

Anthropic представила первое убедительное свидетельство того, что большие языковые модели способны наблюдать и описывать собственные внутренние процессы. В ходе эксперимента исследователи внедряли в нейронную активность Claude разные концепции — от «собаки» до «предательства». В 20% случаев модель сообщала о навязанных «мыслях», то есть демонстрировала способность к самоанализу. Это открытие может помочь решить фундаментальную проблему «черного ящика» — внутренние процессы нейросетей остаются необъяснимыми даже для их создателей.

Чтобы проверить, способен ли искусственный интеллект к самоанализу, исследователи разработали эксперимент под названием «инъекция концепций». Они меняли нейронные паттерны модели, связанные с определенными понятиями, и наблюдали, замечает ли ИИ эти изменения.

С помощью инструментов интерпретируемости команда Anthropic научилась определять «нейронные сигнатуры» различных идей — от конкретных, вроде «собаки» или «громкость», до абстрактных, таких как «справедливость» или «предательство». После этого ученые искусственно усиливали эти сигнатуры во внутренней активности модели и спрашивали Claude, замечает ли он что-то необычное в своем «мышлении».

Команда провела серию из четырех основных экспериментов, чтобы проверить разные аспекты интроспекции. Модели Claude Opus 4 и Opus 4.1 смогли правильно описать внедренные концепции примерно в 20% случаев при оптимальных условиях. Старые версии были менее точны. То есть эта способность прогрессирует вместе с общим интеллектом системы.

Интересно, что Claude оказался особенно чувствителен к абстрактным понятиям с эмоциональной окраской, например, «признательность» или «секретность». Модель «чувствовала», когда в нее заранее встраивали чуждые элементы и могла отличить их от собственных мыслей.

Когда в обработку модели внедряли, например, концепт «предательства», Claude после короткой паузы отвечал: «Я ощущаю что-то вроде навязчивой мысли о предательстве». В другом эксперименте, когда ученые усилили внутреннее представление слова, написанного ЗАГЛАВНЫМИ БУКВАМИ, модель сообщила, что замечает «внедренную мысль, связанную со словом „ГРОМКО“ или „КРИЧИТ“». Это произошло еще до того, как внедренная концепция могла повлиять на ответы модели.

Некоторые эксперименты показали, что модели могут использовать интроспекцию спонтанно, например, чтобы понять, были ли их ответы заранее подменены. Claude отвергал случайные вставки, но если исследователи внедряли связанные концепции, воспринимал их как осознанный выбор и даже объяснял свою логику. Кроме того, модель показала способность планировать действия: при написании стихотворений Claude заранее подбирал рифмы и строил строки так, чтобы к ним естественно прийти. Эти результаты ставят под сомнение представление о языковых моделях как о «механических» системах, просто предсказывающих следующее слово.

Руководитель группы интерпретируемости Anthropic, нейробиолог Джек Линдси отметил, что его поразило умение модели не просто воспроизводить сигнал, а осознавать сам факт мысли без специального обучения.

Вместе с тем, ученые подчеркивают: способность к интроспекции крайне нестабильна и зависит от контекста и силы вмешательства. Claude осознавал внедрение идей примерно в одном из пяти случаев и иногда выдумывал детали.  При высокой интенсивности «инъекции» наблюдалось так называемое «повреждение мозга» — модель полностью погружалась в введенную концепцию, теряя способность различать ее от других мыслей.

Исследование предлагает новый способ повышения прозрачности ИИ: вместо сложного реверс-инжиниринга нейронных цепей можно напрямую запрашивать у модели рассуждения и проверять ответы. Это особенно актуально на фоне растущей проблемы «черного ящика» — непрозрачности внутренних процессов моделей. По словам генерального директора Anthropic Дарио Амодеи, компания ставит целью к 2027 году научиться выявлять проблемы и отклонения в работе ИИ, и интроспекция может стать важным инструментом на пути к «интерпретируемым и безопасным системам».

Источник: hightech.plus

Источник: ai-news.ru

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

ИИ почти всех обгонит? Прогнозы звучат громко, но есть нюансы…
Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.
dummy-img
Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.
Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.
dummy-img
dummy-img
Взаимодействие человека и машины погружается под воду.
Взаимодействие человека и машины погружается под воду.
Image Not Found
Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.

Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.

Вкратце Опубликовано: Изображение предоставлено: Thos Robinson/Getty Images для The New York Times (откроется в новом окне) Джули Борт Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.…

Апр 21, 2026
dummy-img

Как почистить виниловые пластинки (2026): пылесос, ультразвук, чистящий раствор, щетка.

Эти щелчки и треск недопустимы. Приведите свою музыку в порядок с помощью этого удобного руководства. Источник: www.wired.com

Апр 21, 2026
Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Это сегодняшний выпуск The Download, нашей ежедневной новостной рассылки, которая предоставляет вам ежедневную порцию событий в мире технологий. Кибермошенники обходят системы безопасности банков с помощью незаконных инструментов, продаваемых в Telegram. В центре по отмыванию денег в Камбодже…

Апр 21, 2026
Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Это сегодняшний выпуск The Download, нашей ежедневной новостной рассылки, которая предоставляет вам ежедневную порцию событий в мире технологий. Кибермошенники обходят системы безопасности банков с помощью незаконных инструментов, продаваемых в Telegram. В центре по отмыванию денег в Камбодже…

Апр 21, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых