Экспериментальная модель не сможет конкурировать с самыми большими и лучшими, но она может подсказать нам, почему они ведут себя странным образом, и насколько им можно доверять.

Создатель ChatGPT OpenAI создал большую экспериментальную языковую модель, которую гораздо проще понять, чем обычные модели.
Это очень важно, ведь современные LLM — это чёрные ящики: никто до конца не понимает, как они делают то, что делают. Создание более прозрачной модели проливает свет на то, как работают LLM в целом, помогая исследователям понять, почему модели галлюцинируют, почему они сбиваются с пути и насколько мы можем доверять им критически важные задачи.
«По мере того, как эти системы ИИ становятся всё более мощными, они будут всё глубже интегрироваться в очень важные области», — заявил Лео Гао, исследователь из OpenAI, в эксклюзивном обзоре новой работы для MIT Technology Review. «Очень важно убедиться в их безопасности».
Это пока ранняя стадия исследований. Новая модель, называемая «трансформером с разреженным весом», гораздо компактнее и гораздо менее функциональна, чем топовые массовые модели, такие как GPT-5 компании, Claude от Anthropic и Gemini от Google DeepMind. По словам Гао, её возможности в лучшем случае не уступают GPT-1, модели, разработанной OpenAI ещё в 2018 году (хотя он и его коллеги не проводили прямого сравнения).
Но цель не в том, чтобы конкурировать с лучшими в своём классе (по крайней мере, пока). Вместо этого, изучая работу этой экспериментальной модели, OpenAI надеется узнать о скрытых механизмах, которые лежат в основе более крупных и усовершенствованных версий технологии.
«Это интересное исследование», — говорит Элисенда Григсби, математик из Бостонского колледжа, изучающая работу LLM и не принимавшая участия в проекте. «Я уверена, что представленные в нем методы окажут значительное влияние».
Ли Шарки, исследователь из стартапа Goodfire, специализирующегося на искусственном интеллекте, согласен с ним. «Эта работа направлена на достижение верной цели и, похоже, выполнена хорошо», — говорит он.
Почему модели так трудно понять
Работа OpenAI является частью новой перспективной области исследований, известной как механистическая интерпретируемость, которая пытается описать внутренние механизмы, используемые моделями при выполнении различных задач.
Это сложнее, чем кажется. LLM построены на основе нейронных сетей, состоящих из узлов, называемых нейронами, расположенных слоями. В большинстве сетей каждый нейрон связан со всеми другими нейронами в соседних слоях. Такая сеть называется плотной.
Плотные сети относительно эффективны в обучении и работе, но они распределяют полученные знания по обширному массиву связей. В результате простые концепции или функции могут быть распределены между нейронами в разных частях модели. В то же время отдельные нейроны могут представлять несколько различных признаков — явление, известное как суперпозиция (термин, заимствованный из квантовой физики). В результате невозможно связать отдельные части модели с конкретными концепциями.
«Нейронные сети — это нечто огромное, сложное и запутанное, и их очень трудно понять», — говорит Дэн Моссинг, руководитель группы механистической интерпретируемости в OpenAI. «Мы как бы сказали: „Ладно, а что, если попробовать сделать так, чтобы это было не так?“»
Вместо построения модели с использованием плотной сети, OpenAI начала с нейронной сети, известной как «трансформер с разреженными весами», в которой каждый нейрон связан лишь с несколькими другими нейронами. Это заставило модель представлять признаки в локальных кластерах, а не распределять их по всей сети.
Их модель гораздо медленнее любой модели LLM на рынке. Но её нейроны или группы нейронов проще связать с конкретными концепциями и функциями. «Интерпретируемость модели действительно радикально отличается», — говорит Гао.
Гао и его коллеги протестировали новую модель, выполняя очень простые задания. Например, они попросили её дополнить текстовый блок, начинающийся с кавычек, добавив соответствующие знаки в конце.
Это тривиальная просьба для магистра права. Дело в том, что, чтобы понять, как модель справляется даже с такой простой задачей, нужно распутать сложный клубок нейронов и связей, говорит Гао. Но с новой моделью они смогли точно проследить её действия.
«Мы действительно нашли схему, которая представляет собой именно тот алгоритм, который можно было бы реализовать вручную, но при этом он полностью изучен моделью», — говорит он. «Я думаю, это действительно круто и захватывающе».
Куда пойдут исследования дальше? Григсби не уверен, что эту технологию можно будет масштабировать до более крупных моделей, которым придётся решать множество более сложных задач.
Гао и Моссинг признают, что это серьёзное ограничение построенной ими модели, и соглашаются, что такой подход никогда не приведёт к созданию моделей, сопоставимых по производительности с передовыми продуктами, такими как GPT-5. Тем не менее, OpenAI считает, что сможет усовершенствовать эту технологию настолько, чтобы создать прозрачную модель, сопоставимую с GPT-3, прорывной программой компании LLM 2021 года.
«Возможно, через несколько лет у нас появится полностью интерпретируемая система GPT-3, которая позволит изучить каждую её часть и понять, как она работает», — говорит Гао. «Если бы у нас была такая система, мы бы узнали очень много».
Источник: www.technologyreview.com



























