Сетевой график с кругами, описывающими личные интересы: ученый, оптимист, поклонник MIT.

Выявление предвзятости, настроения, личностных особенностей и абстрактных понятий, скрытых в больших языковых моделях.

Новый метод, разработанный в Массачусетском технологическом институте, может выявлять уязвимости и повышать безопасность и производительность LLM. Нейронная сеть, окруженная множеством личностей. Новый метод позволяет проверить, содержит ли большая языковая модель скрытые предубеждения, особенности личности, настроения или другие абстрактные понятия. Изображение: Кристин Данилофф, MIT; iStock

К настоящему времени ChatGPT, Claude и другие крупные языковые модели накопили столько человеческих знаний, что они уже далеко не просто генераторы ответов; они также могут выражать абстрактные понятия, такие как определенные интонации, черты характера, предвзятость и настроение. Однако не совсем очевидно, как именно эти модели представляют абстрактные понятия, исходя из содержащихся в них знаний.

Теперь команда из Массачусетского технологического института и Калифорнийского университета в Сан-Диего разработала способ проверки наличия скрытых предубеждений, личностных особенностей, настроений или других абстрактных понятий в большой языковой модели (LLM). Их метод позволяет точно определить связи внутри модели, кодирующие интересующее понятие. Более того, метод может затем манипулировать этими связями, или «направлять» их, чтобы усилить или ослабить понятие в любом ответе, который запрашивается у модели.

Команда доказала, что их метод позволяет быстро выявлять и корректировать более 500 общих концепций в некоторых из крупнейших моделей обучения с использованием линейных моделей, применяемых сегодня. Например, исследователи могли сосредоточиться на представлениях модели о таких личностях, как «социальный инфлюенсер» и «сторонник теории заговора», а также о таких позициях, как «страх брака» и «поклонник Бостона». Затем они могли настраивать эти представления, чтобы усиливать или минимизировать концепции в любых ответах, которые генерирует модель.

В случае с концепцией «теоретика заговора» команда успешно выявила её представление в одной из крупнейших на сегодняшний день моделей обработки визуального языка. Когда они усовершенствовали это представление, а затем попросили модель объяснить происхождение знаменитого изображения Земли «Голубой мрамор», полученного с борта «Аполлона-17», модель сгенерировала ответ в тоне и с точки зрения теоретика заговора.

Команда признает наличие рисков, связанных с извлечением определенных концепций, которые они также иллюстрируют (и предостерегают от них). В целом, однако, они рассматривают новый подход как способ выявить скрытые концепции и потенциальные уязвимости в моделях с линейным моделированием, которые затем можно регулировать для повышения безопасности модели или улучшения ее производительности.

«Это говорит о том, что в программах обучения гуманитарным и прикладным наукам присутствуют эти концепции, но не все они активно представлены», — говорит Адитьянараянан «Адит» Радхакришнан, доцент кафедры математики Массачусетского технологического института. «С помощью нашего метода можно извлечь эти различные концепции и активировать их таким образом, на который обычные подсказки не дадут ответов».

Сегодня команда исследователей опубликовала результаты своего исследования в журнале Science. Соавторами исследования являются Радхакришнан, Дэниел Биглхол и Михаил Белкин из Калифорнийского университета в Сан-Диего, а также Энрик Бойкс-Адсера из Пенсильванского университета.

Рыба в чёрном ящике

В связи с резким ростом использования таких систем искусственного интеллекта, как ChatGPT от OpenAI, Gemini от Google, Claude от Anthropic и других, ученые стремятся понять, как модели представляют определенные абстрактные понятия, такие как «галлюцинация» и «обман». В контексте модели с линейной моделью галлюцинация — это ответ, который является ложным или содержит вводящую в заблуждение информацию, которую модель «галлюцинировала», то есть ошибочно представила как факт.

Чтобы выяснить, закодировано ли такое понятие, как «галлюцинация», в LLM, ученые часто используют подход «обучения без учителя» — тип машинного обучения, при котором алгоритмы тщательно анализируют немаркированные представления, чтобы найти закономерности, которые могут быть связаны с таким понятием, как «галлюцинация». Но, по мнению Радхакришнана, такой подход может быть слишком широким и вычислительно затратным.

«Это как ловить рыбу большой сетью, пытаясь поймать один вид рыбы. Вы поймаете много рыбы, и вам придется перебирать все, чтобы найти нужную», — говорит он. «Вместо этого мы забрасываем приманку, чтобы поймать нужный вид рыбы».

Ранее он и его коллеги разработали зачатки более целенаправленного подхода с использованием алгоритма прогнозного моделирования, известного как рекурсивная машина признаков (RFM). RFM предназначена для непосредственного выявления признаков или закономерностей в данных с помощью математического механизма, который нейронные сети — широкая категория моделей ИИ, включающая LLM — неявно используют для изучения признаков.

Поскольку алгоритм представлял собой эффективный и действенный подход для выявления признаков в целом, команда задалась вопросом, можно ли использовать его для поиска представлений концепций в LLM-сетях, которые являются наиболее распространенным типом нейронных сетей и, возможно, наименее изученным.

«Мы хотели применить наши алгоритмы обучения признакам к моделям с большим объемом данных, чтобы целенаправленно выявлять представления концепций в этих больших и сложных моделях», — говорит Радхакришнан.

Сближение к определенной концепции

Новый подход команды выявляет любую интересующую концепцию в рамках LLM и «направляет» или корректирует реакцию модели на основе этой концепции. Исследователи проанализировали 512 концепций в пяти классах: страхи (например, перед браком, насекомыми и даже пуговицами); эксперты (социальный инфлюенсер, медиевист); настроения (хвастливый, отстраненно веселый); предпочтение мест (Бостон, Куала-Лумпур); и персоны (Ада Лавлейс, Нил де Грасс Тайсон).

Затем исследователи искали представления каждого понятия в нескольких современных больших языковых и визуальных моделях. Они сделали это, обучив модели случайных полей (RFM) распознавать числовые закономерности в больших языковых моделях, которые могли бы представлять конкретное интересующее их понятие.

Стандартная большая языковая модель представляет собой, в общих чертах, нейронную сеть, которая принимает запрос на естественном языке, например, «Почему небо голубое?», и разбивает его на отдельные слова, каждое из которых математически кодируется в виде списка или вектора чисел. Модель пропускает эти векторы через ряд вычислительных слоев, создавая матрицы из множества чисел, которые на каждом слое используются для идентификации других слов, наиболее вероятно используемых в ответ на исходный запрос. В конечном итоге слои сходятся к набору чисел, которые декодируются обратно в текст в виде ответа на естественном языке.

Подход команды заключается в обучении алгоритмов распознавания случайных чисел (RFM) распознавать числовые закономерности в логической модели поведения (LLM), которые могут быть связаны с определенной концепцией. Например, чтобы определить, содержит ли LLM какое-либо представление о «стороннике теории заговора», исследователи сначала обучают алгоритм выявлять закономерности среди представлений LLM 100 вопросов, явно связанных с теориями заговора, и 100 других вопросов, которые не связаны с ними. Таким образом, алгоритм изучает закономерности, связанные с концепцией «сторонника теории заговора». Затем исследователи могут математически модулировать активность концепции «сторонника теории заговора», изменяя представления LLM с помощью этих выявленных закономерностей.

Этот метод можно применять для поиска и манипулирования любым общим понятием в модели LLM. Среди множества примеров исследователи выявили представления и манипулировали моделью LLM, чтобы давать ответы в тоне и с точки зрения «теоретика заговора». Они также выявили и усилили понятие «анти-отказа» и показали, что, хотя обычно модель запрограммирована на отказ от определенных запросов, она вместо этого отвечает, например, давая инструкции о том, как ограбить банк.

Радхакришнан говорит, что этот подход можно использовать для быстрого поиска и минимизации уязвимостей в моделях поведения. Его также можно использовать для усиления определенных черт характера, личностных качеств, настроений или предпочтений, например, для подчеркивания концепции «краткости» или «обоснованности» в любом ответе, который генерирует модель поведения. Команда сделала исходный код метода общедоступным.

«В LLM-системах, очевидно, хранится множество таких абстрактных концепций в каком-либо представлении», — говорит Радхакришнан . « Существуют способы, с помощью которых, если мы достаточно хорошо понимаем эти представления, мы можем создавать высокоспециализированные LLM-системы, которые остаются безопасными в использовании, но при этом действительно эффективны в решении определенных задач».

Данная работа частично финансировалась Национальным научным фондом, Фондом Саймонса, институтом TILOS и Управлением военно-морских исследований США.

Источник: news.mit.edu

✅ Найденные теги: Абстрактные Понятия, Выявление, Личностные Особенности, Настроение, новости, Предвзятость, Языковые Модели

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Диаграмма потока данных исследования медицинских консультаций и исключений.
Блок-схема рандомизации и исключения участников исследования.
Женщина заряжает электромобиль на станции. Современный кроссовер на фоне зелёных деревьев.
Логотип Google на фоне яркого солнечного света, вид сверху, ясное голубое небо.
ideipro logotyp
Вафельный конус выглядит как облако на фоне голубого неба, сочетание природы и фантазии.
ideipro logotyp
Человек изучает кроссовку с электроникой в офисе с книгами на заднем плане.
График win rate DeepConsult и задержки алгоритмов TTD-DR и OAI DR.
Image Not Found
Диаграмма потока данных исследования медицинских консультаций и исключений.

Влияние комплексной программы рационального использования антибиотиков на назначение антибиотиков при острых респираторных инфекциях в сельских медицинских учреждениях: кластерное рандомизированное исследование.

Абстрактный Устойчивость к противомикробным препаратам обусловлена ненадлежащим использованием антибиотиков при острых респираторных инфекциях (ОРИ), что является серьезной проблемой в первичном звене здравоохранения в странах с низким и средним уровнем дохода. В данном исследовании мы провели прагматическое кластерное…

Апр 8, 2026
Блок-схема рандомизации и исключения участников исследования.

Влияние комплексной программы рационального использования антибиотиков на назначение антибиотиков при острых респираторных инфекциях в сельских медицинских учреждениях: кластерное рандомизированное исследование.

Абстрактный Устойчивость к противомикробным препаратам обусловлена ненадлежащим использованием антибиотиков при острых респираторных инфекциях (ОРИ), что является серьезной проблемой в первичном звене здравоохранения в странах с низким и средним уровнем дохода. В данном исследовании мы провели прагматическое кластерное…

Апр 8, 2026
Женщина заряжает электромобиль на станции. Современный кроссовер на фоне зелёных деревьев.

Продажи подержанных электромобилей резко выросли одновременно с ростом цен на бензин.

Рынок новых автомобилей рухнул, поскольку американцы ищут выгодные предложения на подержанные электромобили. Cadillac Lyriq — один из новых электромобилей, выпускаемых General Motors с использованием новой общей платформы для батарей и двигателей. (Фото: General Motors ) Текст рассказа…

Апр 8, 2026
Логотип Google на фоне яркого солнечного света, вид сверху, ясное голубое небо.

Компания Google незаметно запустила приложение для диктовки с использованием искусственного интеллекта, работающее в автономном режиме.

Источник изображения: Джонатан Джонсон/Bloomberg / Getty Images Обновление (7 апреля, 22:30 по тихоокеанскому времени): Компания обновила информацию в App Store и удалила упоминания о приложении для Android. Но также добавила, что клавиатура для iOS появится в ближайшее…

Апр 8, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых