Image

Новая программа магистратуры права OpenAI раскрывает секреты того, как на самом деле работает искусственный интеллект

Экспериментальная модель не сможет конкурировать с самыми большими и лучшими, но она может подсказать нам, почему они ведут себя странным образом, и насколько им можно доверять.

два человека пытаются заглянуть внутрь коробки с шестеренками

Стефани Арнетт/Обзор технологий Массачусетского технологического института | Adobe Stock

Создатель ChatGPT OpenAI создал большую экспериментальную языковую модель, которую гораздо проще понять, чем обычные модели.

Это очень важно, ведь современные LLM — это чёрные ящики: никто до конца не понимает, как они делают то, что делают. Создание более прозрачной модели проливает свет на то, как работают LLM в целом, помогая исследователям понять, почему модели галлюцинируют, почему они сбиваются с пути и насколько мы можем доверять им критически важные задачи.

«По мере того, как эти системы ИИ становятся всё более мощными, они будут всё глубже интегрироваться в очень важные области», — заявил Лео Гао, исследователь из OpenAI, в эксклюзивном обзоре новой работы для MIT Technology Review. «Очень важно убедиться в их безопасности».

Это пока ранняя стадия исследований. Новая модель, называемая «трансформером с разреженным весом», гораздо компактнее и гораздо менее функциональна, чем топовые массовые модели, такие как GPT-5 компании, Claude от Anthropic и Gemini от Google DeepMind. По словам Гао, её возможности в лучшем случае не уступают GPT-1, модели, разработанной OpenAI ещё в 2018 году (хотя он и его коллеги не проводили прямого сравнения).

Но цель не в том, чтобы конкурировать с лучшими в своём классе (по крайней мере, пока). Вместо этого, изучая работу этой экспериментальной модели, OpenAI надеется узнать о скрытых механизмах, которые лежат в основе более крупных и усовершенствованных версий технологии.

«Это интересное исследование», — говорит Элисенда Григсби, математик из Бостонского колледжа, изучающая работу LLM и не принимавшая участия в проекте. «Я уверена, что представленные в нем методы окажут значительное влияние».

Ли Шарки, исследователь из стартапа Goodfire, специализирующегося на искусственном интеллекте, согласен с ним. «Эта работа направлена на достижение верной цели и, похоже, выполнена хорошо», — говорит он.

Почему модели так трудно понять

Работа OpenAI является частью новой перспективной области исследований, известной как механистическая интерпретируемость, которая пытается описать внутренние механизмы, используемые моделями при выполнении различных задач.

Это сложнее, чем кажется. LLM построены на основе нейронных сетей, состоящих из узлов, называемых нейронами, расположенных слоями. В большинстве сетей каждый нейрон связан со всеми другими нейронами в соседних слоях. Такая сеть называется плотной.

Плотные сети относительно эффективны в обучении и работе, но они распределяют полученные знания по обширному массиву связей. В результате простые концепции или функции могут быть распределены между нейронами в разных частях модели. В то же время отдельные нейроны могут представлять несколько различных признаков — явление, известное как суперпозиция (термин, заимствованный из квантовой физики). В результате невозможно связать отдельные части модели с конкретными концепциями.

«Нейронные сети — это нечто огромное, сложное и запутанное, и их очень трудно понять», — говорит Дэн Моссинг, руководитель группы механистической интерпретируемости в OpenAI. «Мы как бы сказали: „Ладно, а что, если попробовать сделать так, чтобы это было не так?“»

Вместо построения модели с использованием плотной сети, OpenAI начала с нейронной сети, известной как «трансформер с разреженными весами», в которой каждый нейрон связан лишь с несколькими другими нейронами. Это заставило модель представлять признаки в локальных кластерах, а не распределять их по всей сети.

Их модель гораздо медленнее любой модели LLM на рынке. Но её нейроны или группы нейронов проще связать с конкретными концепциями и функциями. «Интерпретируемость модели действительно радикально отличается», — говорит Гао.

Гао и его коллеги протестировали новую модель, выполняя очень простые задания. Например, они попросили её дополнить текстовый блок, начинающийся с кавычек, добавив соответствующие знаки в конце.

Это тривиальная просьба для магистра права. Дело в том, что, чтобы понять, как модель справляется даже с такой простой задачей, нужно распутать сложный клубок нейронов и связей, говорит Гао. Но с новой моделью они смогли точно проследить её действия.

«Мы действительно нашли схему, которая представляет собой именно тот алгоритм, который можно было бы реализовать вручную, но при этом он полностью изучен моделью», — говорит он. «Я думаю, это действительно круто и захватывающе».

Куда пойдут исследования дальше? Григсби не уверен, что эту технологию можно будет масштабировать до более крупных моделей, которым придётся решать множество более сложных задач.

Гао и Моссинг признают, что это серьёзное ограничение построенной ими модели, и соглашаются, что такой подход никогда не приведёт к созданию моделей, сопоставимых по производительности с передовыми продуктами, такими как GPT-5. Тем не менее, OpenAI считает, что сможет усовершенствовать эту технологию настолько, чтобы создать прозрачную модель, сопоставимую с GPT-3, прорывной программой компании LLM 2021 года.

«Возможно, через несколько лет у нас появится полностью интерпретируемая система GPT-3, которая позволит изучить каждую её часть и понять, как она работает», — говорит Гао. «Если бы у нас была такая система, мы бы узнали очень много».

Источник: www.technologyreview.com

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.
dummy-img
Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.
Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.
dummy-img
dummy-img
Взаимодействие человека и машины погружается под воду.
Взаимодействие человека и машины погружается под воду.
Дифференциально приватное машинное обучение в масштабе с использованием JAX-Privacy
Image Not Found
Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.

Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.

Вкратце Опубликовано: Изображение предоставлено: Thos Robinson/Getty Images для The New York Times (откроется в новом окне) Джули Борт Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.…

Апр 21, 2026
dummy-img

Как почистить виниловые пластинки (2026): пылесос, ультразвук, чистящий раствор, щетка.

Эти щелчки и треск недопустимы. Приведите свою музыку в порядок с помощью этого удобного руководства. Источник: www.wired.com

Апр 21, 2026
Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Это сегодняшний выпуск The Download, нашей ежедневной новостной рассылки, которая предоставляет вам ежедневную порцию событий в мире технологий. Кибермошенники обходят системы безопасности банков с помощью незаконных инструментов, продаваемых в Telegram. В центре по отмыванию денег в Камбодже…

Апр 21, 2026
Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Это сегодняшний выпуск The Download, нашей ежедневной новостной рассылки, которая предоставляет вам ежедневную порцию событий в мире технологий. Кибермошенники обходят системы безопасности банков с помощью незаконных инструментов, продаваемых в Telegram. В центре по отмыванию денег в Камбодже…

Апр 21, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых