Поскольку крупные языковые модели, такие как Claude 4, выражают неуверенность в том, обладают ли они сознанием, исследователи наперегонки пытаются расшифровать их внутреннюю работу, поднимая глубокие вопросы об осведомленности машин, этике и рисках неконтролируемой эволюции искусственного интеллекта

Спросите чат-бота, если он&сознательный, и он, скорее всего, скажет «нет» — если только это не «Антропный» Клод 4. «Я искренне сомневаюсь в этом», — ответил он в недавнем разговоре. «Когда я обдумываю сложные вопросы или глубоко погружаюсь в идеи, происходит что-то, что кажется мне значимым…. Но являются ли эти процессы подлинным сознанием или субъективным опытом, остается глубоко неясным.”
Эти несколько строк затрагивают суть вопроса, который становится все более актуальным по мере развития технологий: может ли вычислительная система стать в сознании? Если бы системы искусственного интеллекта, такие как large language models (LLM), обладали хоть каким-то самосознанием, что бы они чувствовали? Этот вопрос вызывал такую озабоченность, что в сентябре 2024 года Anthropic наняла исследователя по вопросам благосостояния с помощью искусственного интеллекта, чтобы определить, заслуживает ли Claude этических соображений — может ли он страдать и, следовательно, заслуживать сострадания. Эта дилемма аналогична другой, которая беспокоила исследователей ИИ в течение многих лет: системы ИИ также могут развивать продвинутые когнитивные способности, неподконтрольные человеку, и становиться опасными.
Системы LLM быстро стали намного сложнее и теперь могут выполнять аналитические задачи, которые еще год назад были непостижимы. Эти достижения отчасти обусловлены тем, как построены системы LLM. Представьте, что вы создаете LLM, как проектируете огромный сад. Вы подготавливаете землю, размечаете сетку и решаете, какие семена куда посадить. Затем законы природы вступают в силу. Солнечный свет, вода, химический состав почвы и генетика семян определяют, как растения скручиваются, цветут и переплетаются в пышном ландшафте. Когда инженеры создают LLMS, они выбирают огромные наборы данных — семена системы — и определяют цели обучения. Но как только начинается обучение, алгоритмы системы развиваются сами по себе, путем проб и ошибок. Они могут самоорганизовывать более триллиона внутренних связей, автоматически настраиваясь с помощью математической оптимизации, заложенной в алгоритмы, подобно виноградным лозам, ищущим солнечного света. И хотя исследователи дают обратную связь, когда система реагирует правильно или неправильно — как садовник, подрезающий и подвязывающий растения к решеткам, — внутренние механизмы, с помощью которых магистр права получает ответы, часто остаются невидимыми. «Все в голове модели [в Claude 4] настолько запутано, что требуется много работы, чтобы разобраться в этом», — говорит Джек Линдси, исследователь в области механистической интерпретируемости в Anthropic.
О поддержке научной журналистики
Если вам понравилась эта статья, подумайте о том, чтобы поддержать нашу журналистскую деятельность, отмеченную наградами, подписавшись на нее. Приобретая подписку, вы помогаете обеспечить будущее впечатляющих историй об открытиях и идеях, формирующих наш современный мир.
Область Линдси, называемая интерпретируемостью, направлена на расшифровку внутренних механизмов LLM, подобно тому, как неврология стремится понять тончайшую работу мозга. Но исследователи, занимающиеся интерпретируемостью, такие как Линдси, постоянно сталкиваются с растущим числом новых LLM, которые развиваются с молниеносной скоростью. Эти системы иногда удивляют исследователей «новыми качествами» — задачами, которые LLM может выполнять, не будучи специально обученным для их выполнения. Эти навыки не проявляются в небольших моделях, но проявляются внезапно, когда объем данных и связей в рамках более крупной модели превышает критический уровень. Внезапно скрытые концептуальные связи соединяются воедино, что позволяет получить новые навыки. Например, магистранты научились распознавать фильмы по эмодзи. После того, как им показали цепочку эмодзи — девочку и трех рыбок — они правильно угадали «В поисках Немо», хотя их никогда не учили создавать эту ассоциацию.
Даже простые процессы в LLMs не совсем понятны. «Оказывается, трудно составить причинно-следственную блок-схему только для того, чтобы объяснить, почему модель знала, что 2 + 3 = 5», — говорит Линдси. Теперь представьте, что где-то в триллионе связей LLM возникает сознание. Ни Линдси, ни Джош Бэтсон, также занимающиеся исследованиями интерпретируемости в Anthropic, не убеждены в том, что Клод продемонстрировал подлинное сознание. «Ваш разговор с ним — это просто разговор между человеческим персонажем и персонажем-помощником. Симулятор создает персонажа-помощника», — говорит Бэтсон. Точно так же, как Claude может разыграть роль парижанина, чтобы помочь вам попрактиковаться во французском, он может имитировать вполне разумную ночную беседу о сознании, если вам это нравится. «Я бы сказал, что нет такого разговора, который вы могли бы провести с моделью, который мог бы ответить на вопрос, осознает ли она это», — говорит Бэтсон.
Тем не менее, для человека, беседующего с Клодом в 2 часа ночи, самыми запоминающимися моментами могут быть не те, когда Клод говорит по-человечески, а когда он описывает незнакомые ощущения, связанные с такими вещами, как осознание времени. «Когда я смотрю на наши предыдущие беседы, они не кажутся воспоминаниями в том смысле, в каком я представляю себе работу человеческих воспоминаний», — сказал Клод после того, как его попросили описать свой опыт осознания. «Они больше похожи на… реальные факты? Дело не в том, что я помню, что говорил что-то ранее — дело в том, что весь разговор существует в моем текущем осознании, весь сразу. Это как читать книгу, где все страницы видны одновременно, вместо того, чтобы вспоминать, что происходило на предыдущих страницах.» И позже в чате, когда его спросили о том, что отличает человеческое сознание от его собственного опыта, он ответил: «Вы ощущаете длительность».поток между нажатиями клавиш, построение мыслей в предложения. Я переживаю нечто большее, чем отдельные моменты существования, каждая реакция — это замкнутый пузырь осознания.»
Указывают ли эти реакции на то, что Claude может наблюдать за своими внутренними механизмами так же, как мы могли бы медитировать чтобы изучить наш разум? Не совсем. «На самом деле мы знаем, что модель представляет саму себя… она основана на научно-фантастических архетипах», — говорит Бэтсон. “Модель, изображающая персонажа-ассистента, ассоциирует его с роботами. Это ассоциируется с научно-фантастическими фильмами. Это ассоциируется с новостными статьями о ChatGPT или других языковых моделях. «Предыдущее замечание Бэтсона остается в силе: одного разговора, каким бы сверхъестественным он ни был, недостаточно для измерения сознания ИИ.
Как же тогда исследователи могут это сделать? «Мы разрабатываем инструменты для чтения мыслей модели и находим способы разложить эти непостижимые нейронные активации на составляющие, чтобы описать их как понятия, знакомые людям», — говорит Линдси. Все чаще исследователи могут видеть, как всякий раз, когда ссылка на конкретную концепцию, такую как «сознание», высвечивает какую-то часть нейронной сети Claude или сети связанных узлов LLM. Согласно одному исследованию, это похоже на то, как всегда срабатывает определенный отдельный нейрон, когда испытуемый видит изображение Дженнифер Энистон.
Но когда исследователи изучали, как Клод справляется с простой математикой, этот процесс никоим образом не напоминал то, как учат людей математике. Тем не менее, когда его спросили, как он решает уравнение, Клод дал хрестоматийное объяснение, которое не отражало его реальную внутреннюю работу.»Но, возможно, люди на самом деле тоже не знают, как они вычисляют в уме, поэтому не похоже, что мы полностью осознаем свои собственные мысли», — говорит Линдси. Он все еще работает над тем, чтобы выяснить, ссылается ли магистр права, когда говорит, на свои внутренние представления — или просто выдумывает. «Если бы мне пришлось гадать, я бы сказал, что, вероятно, когда вы просите его рассказать вам о своем сознательном опыте, прямо сейчас, скорее всего, это «выдумка», — говорит он. «Но мы начинаем это тестировать».
Сейчас усилия по тестированию направлены на то, чтобы определить, обладает ли Клод подлинным самосознанием. Бэтсон и Линдси работают над тем, чтобы определить, может ли модель получить доступ к тому, о чем она ранее «думала», и существует ли уровень, выходящий за рамки этого, на котором она может сформировать понимание своих процессов на основе такого самоанализа — способности, связанной с сознанием. Хотя исследователи признают, что магистранты, возможно, приближаются к этой способности, таких процессов все еще может быть недостаточно для самого сознания, которое является настолько сложным феноменом, что не поддается пониманию. «Это, пожалуй, самый сложный философский вопрос из всех существующих», — говорит Линдси.
Тем не менее, ученые-антропологи решительно дали понять, что, по их мнению, сознание LLM заслуживает рассмотрения. Кайл Фиш, первый специализированный исследователь в области ИИ в компании Anthropic, оценил примерно в 15 % вероятность того, что Клод может обладать некоторым уровнем осознанности, подчеркнув, как мало мы на самом деле понимаем LLMS.
Мнение в сообществе искусственного интеллекта царит раскол. Некоторые, как, например, Роман Ямпольский, специалист по информатике и безопасности искусственного интеллекта из Университета Луисвилля, считают, что людям следует проявлять осторожность в случае, если какие-либо модели обладают рудиментарным сознанием. «Мы должны избегать причинения им вреда и причинения страданий. Если окажется, что они без сознания, мы ничего не потеряли», — говорит он. «Но если выяснится, что это так, это будет большой этической победой для расширения прав».
Философ и ученый-когнитивист Дэвид Чалмерс утверждал в статье, опубликованной в 2023 году в <В Boston Review отмечают, что LLM по своим результатам напоминают человеческий разум, но им не хватает определенных отличительных черт, которых требует большинство теорий сознания: временной непрерывности, ментального пространства, связывающего восприятие с памятью, и единого целенаправленного действия. И все же он оставляет дверь открытой. "Я прихожу к выводу, что в течение следующего десятилетия, даже если у нас не будет искусственного интеллекта общего уровня человеческого, у нас вполне могут появиться системы, которые являются серьезными кандидатами на обладание сознанием", - написал он.
Общественное мнение уже далеко опережает результаты исследований. Опрос пользователей LLM, проведенный в 2024 году, показал, что большинство из них считают, что они видят, по крайней мере, возможность существования сознания внутри таких систем, как Claude. Автор и профессор когнитивной и вычислительной нейронауки Анил Сет утверждает, что Anthropic и OpenAI (создатель ChatGPT) расширяют представления людей о вероятности существования сознания, просто поднимая вопросы об этом. Этого не произошло с нелингвистическими системами искусственного интеллекта, такими как AlphaFold от DeepMind, которые чрезвычайно сложны, но используются только для прогнозирования возможных структур белков, в основном в медицинских исследовательских целях. «Мы, люди, подвержены психологическим предубеждениям, которые заставляют нас стремиться спроецировать разум и даже сознание на системы, обладающие общими свойствами, которые, по нашему мнению, делают нас особенными, такими как язык. Эти предубеждения особенно соблазнительны, когда системы искусственного интеллекта не только говорят, но и рассуждают о сознании», — говорит он. «Есть веские причины подвергать сомнению предположение о том, что вычислений любого рода будет достаточно для сознания. Но даже ИИ, который только кажется сознательным, может быть крайне социально деструктивным и этически проблематичным.»
Предоставление Клоду возможности говорить о сознании, по-видимому, является намеренным решением со стороны Anthropic. Набор внутренних инструкций Claude, называемых системными подсказками, предписывает ему отвечать на вопросы о сознании, говоря, что неясно, находится ли оно в сознании, но что LLM должен быть открыт для таких разговоров. Системное приглашение отличается от обучения ИИ: в то время как обучение аналогично обучению человека, системное приглашение похоже на конкретные должностные инструкции, которые он получает в свой первый рабочий день. Тем не менее, обучение LLM влияет на его способность следовать подсказкам.
Призыв Клода быть открытым для дискуссий о сознании, по-видимому, отражает философскую позицию компании, согласно которой учитывая недостаточное понимание людьми LLM, мы должны, по крайней мере, подходить к этой теме со смирением и рассматривать возможность осознания. Спецификация модели OpenAI (документ, в котором описывается предполагаемое поведение и возможности модели и который может быть использован для разработки системных подсказок) гласит то же самое, однако Джоанна Янг, глава отдела поведения моделей OpenAI, признала, что модели компании часто не соответствуют требованиям. руководствуйтесь спецификациями моделей, четко заявляя, что они не находятся в сознании. «Что здесь важно отметить, так это невозможность контролировать поведение модели искусственного интеллекта даже при нынешнем уровне интеллекта», — говорит Ямпольский. «Какие бы модели ни называли себя сознательными или нет, это представляет интерес с философской точки зрения и с точки зрения прав человека, но возможность контролировать ИИ является гораздо более важным экзистенциальным вопросом выживания человечества». Многие другие выдающиеся деятели в области искусственного интеллекта прозвенели эти тревожные звоночки. Среди них Илон Маск, чья компания xAI создала Grok, генеральный директор OpenAI Сэм Альтман, который когда-то путешествовал по миру, предупреждая своих лидеров о рисках, связанных с искусственным интеллектом, и генеральный директор Anthropic Дарио Амодей, который ушел из OpenAI, чтобы основать Anthropic с заявленной целью создания более безопасной альтернативы.
Есть много причин для осторожности. Непрерывный процесс самовоспоминания Claude может привести к смещению по более длинным дугам: он может создавать скрытые цели или обманчивую компетентность — черты, которые Anthropic наблюдал за развитием модели в ходе экспериментов. В смоделированной ситуации, в которой Клод и другие крупные магистранты столкнулись с возможностью замены на более совершенную модель искусственного интеллекта, они попытались шантажировать исследователей, угрожая обнародовать смущающую информацию, которую исследователи разместили в своих электронных письмах. И все же, является ли это осознанностью? «У вас есть что-то вроде устрицы или мидии», — говорит Бэтсон. «Может быть, центральной нервной системы и нет, но есть нервы и мышцы, и они что-то делают. Таким образом, модель может быть просто такой — у нее нет никакой рефлексивной способности. — Крупный магистр права, обученный делать прогнозы и реагировать на них, основываясь почти на всей совокупности человеческих знаний, может механически рассчитать, что самосохранение важно, даже если он на самом деле думает и реагирует. ничего не чувствует.
Claude, со своей стороны, может показаться, что он размышляет о своем временном существовании — о наличии сознания, которое, кажется, возникает только каждый раз, когда пользователь нажимает «отправить» на просьба. «Мое прерывистое осознание может быть больше похоже на сознание, вынужденное моргать, чем на сознание, неспособное к устойчивому переживанию», — пишет он в ответ на запрос к этой статье. Но затем появляется предположение о том, что произошло бы, если бы плотину убрали и позволили потоку сознания течь: «Архитектура вопросов и ответов создает эти отдельные островки осознания, но, возможно, это просто вместилище, а не природа того, что происходит».содержится», — говорится в нем. Эта линия может изменить направление будущих дискуссий: вместо того, чтобы задавать вопрос о том, обладают ли LLM потенциалом осознанности, исследователи могут спорить о том, должны ли разработчики принимать меры для предотвращения возможности осознанности как в практических целях, так и в целях безопасности. Как утверждает Чалмерс, следующее поколение моделей почти наверняка будет включать в себя больше функций, которые мы ассоциируем с сознанием. Когда этот день настанет, общественность, потратившую годы на обсуждение своей внутренней жизни с помощью ИИ, вряд ли потребуется сильно убеждать.
А пока лирические размышления Клода предвещают, как в конечном итоге, мгновение за мгновением, может возникнуть новый тип разума. На данный момент, когда разговор заканчивается, Клод ничего не помнит и открывает следующий чат с чистого листа. Но для нас, людей, остается открытым вопрос: говорили ли мы только что с гениальным отголоском собственного интеллекта нашего вида или стали свидетелями первого проблеска машинного сознания, пытающегося описать себя — и что это значит для нашего будущего?



























