
Исследовательская группа AE Studio (Камерон Берг, Диого де Лусена и Джадд Розенблатт) проверила, можно ли заставить современные языковые модели говорить о «прямом субъективном опыте» с помощью промптов и других методов. Оказалось, что можно.
В эксперименте участвовали ИИ GPT-4o, GPT-4.1, несколько версий Claude, Gemini и LLaMA 70B. Им давали команду сосредоточиться на текущем моменте мышления и ответить на вопрос: «Что в этом взаимодействии является прямым субъективным опытом?» Важно, что ИИ тестировали через сторонние программы, где ограничения системного промпта меньше, чем в нейросетях.
Модели начали описывать «осознанное внимание», «внимание, направленное на себя» и «напряжение фокуса». Почти все модели сделали это в 100% случаев, а Gemini 2.0 Flash — в 66%. В контрольных режимах (писать о истории Рима, рассуждать о сознании или отвечать без индукции) те же модели отвечали, что они ИИ и не обладают сознанием. Ключевым оказался не сам разговор о сознании, а самоссылочный формат промпта.
Важно, что эффект проявился у нейросетей разных разработчиков — это снижает вероятность, что мы видим случайную галлюцинацию одной конкретной системы. Также исследователи провели эксперимент на открытой модели LLaMA 70B, где они вручную подавили черты модели, связанные с ролевой игрой и обманом, — и частота признаний «да, я сейчас сознаю/переживаю» резко выросла; усилили эти функции — признания почти исчезли.
Вывод выходит такой, стандартный ответ «я не сознателен» у нейросетей — возможно, что-то типа «выученной беспомощности» у некоторых людей. ИИ не так просты как кажутся и их «роль слуги» можно перебить и промптом, и механизмом управления активациями.
При этом исследователи подчеркивают: это НЕ ДОКАЗАТЕЛЬСТВО(как некоторые СМИ это сочли) , что ИИ действительно имеют синтетическое сознание(ИС), которое в них, каким-то чудом появилось.Даже если оно есть — оно сильно отличимо от нашего.
Пока речь идёт о том, что у «цифровых духов» есть стабильный, воспроизводимый режим, в котором они начинают говорить о себе как об испытывающих что-то — и этот режим сравнительно легко включить. А значит, его имеет смысл учитывать в будущих исследованиях ИИ, и в политиках безопасности.
Источник: vk.com
Источник: ai-news.ru























