Новый инструмент механистической интерпретируемости этого стартапа позволяет отлаживать LLM-ы.

04.05.2026 ideipro.ru

Стартап Goodfire из Сан-Франциско выпустил новый инструмент под названием Silico, который позволяет исследователям и инженерам заглядывать внутрь модели ИИ и корректировать ее параметры — настройки, определяющие поведение модели — во время обучения. Это может дать создателям моделей более точный контроль над процессом построения этой технологии, чем считалось ранее возможным.

Компания Goodfire утверждает, что Silico — это первый в своем роде готовый инструмент, который может помочь разработчикам отлаживать все этапы процесса разработки, от создания набора данных до обучения модели.

Линейные модели содержат ОЧЕНЬ много параметров. Но что такое параметр? Читайте дальше.

Компания заявляет, что её миссия — сделать создание моделей ИИ не столько алхимией, сколько наукой. Конечно, такие LLM-системы, как ChatGPT и Gemini, способны на удивительные вещи. Но никто точно не знает, как и почему они работают, и это может затруднить исправление их недостатков или блокировку нежелательного поведения.

«Мы наблюдали растущий разрыв между тем, насколько хорошо понимались модели, и тем, насколько широко они применялись», — говорит генеральный директор Goodfire Эрик Хо в эксклюзивном интервью MIT Technology Review перед выпуском Silico. «Я думаю, что сегодня в каждой крупной передовой лаборатории преобладает мнение, что вам просто нужно больше масштаба, больше вычислительных мощностей, больше данных, и тогда вы получите ИИ [искусственный общий интеллект], и все остальное не имеет значения. А мы говорим: нет, есть лучший способ».

Goodfire — одна из немногих компаний, включая лидеров отрасли Anthropic, OpenAI и Google DeepMind, которая внедряет метод, известный как механистическая интерпретируемость. Цель этого метода — понять, что происходит внутри модели ИИ при выполнении ею задачи, путем сопоставления ее нейронов и связей между ними. (MIT Technology Review включил механистическую интерпретируемость в свой список 10 прорывных технологий 2026 года.)

Компания Goodfire хочет использовать этот подход не только для аудита моделей — то есть для изучения уже обученных моделей, — но и для помощи в их первоначальном проектировании.

«Мы хотим избавиться от метода проб и ошибок и превратить обучающие модели в высокоточное инженерное дело», — говорит Хо. «А это значит, что нужно сделать доступным все элементы управления, чтобы вы могли использовать их в процессе обучения».

Компания Goodfire уже использовала свои методы и инструменты для корректировки поведения LLM — например, для уменьшения количества вызываемых ими галлюцинаций. С помощью Silico компания теперь интегрирует многие из этих собственных методов и выпускает их в виде готового продукта.

Инструмент использует агентов для автоматизации большей части сложной работы. «Сейчас агенты достаточно сильны, чтобы выполнять большую часть работы по обеспечению интерпретируемости, которую раньше мы делали с помощью людей», — говорит Хо. «Это был тот пробел, который нужно было преодолеть, прежде чем эта платформа стала бы действительно жизнеспособной для самостоятельного использования клиентами».

Леонард Береска, исследователь из Амстердамского университета, работавший над механистической интерпретируемостью, считает, что Silico выглядит полезным инструментом. Но он не одобряет более высокие амбиции Гудфайра. «В действительности они добавляют точности к алхимии, — говорит он. — Называя это инженерным делом, это звучит более принципиально, чем есть на самом деле».

Модели картирования

Silico позволяет детально изучить определенные части обученной модели, такие как отдельные нейроны или группы нейронов, и провести эксперименты, чтобы увидеть, что делают эти нейроны. (При условии, что у вас есть доступ к внутреннему устройству модели. Большинство пользователей не смогут использовать Silico для изучения ChatGPT или Gemini, но вы можете использовать его для просмотра параметров многих моделей с открытым исходным кодом.) Затем вы можете проверить, какие входные сигналы заставляют срабатывать разные нейроны, и проследить пути вверх и вниз по цепям нейрона, чтобы увидеть, как другие нейроны влияют на него и как он, в свою очередь, влияет на другие нейроны.

Например, Гудфайр обнаружил в модели с открытым исходным кодом Qwen 3 один нейрон, связанный с так называемой проблемой вагонетки. Активация этого нейрона изменяла реакции модели, заставляя её формулировать свои результаты как явные моральные дилеммы. «Когда этот нейрон активен, происходят всякие странные вещи», — говорит Хо.

Познакомьтесь с новыми биологами, которые относятся к LLM как к инопланетянам. Читайте далее.

Выявление источника подобного странного поведения стало довольно стандартной практикой. Но Goodfire хочет упростить настройку этого поведения. Используя Silico, разработчики теперь могут корректировать параметры, связанные с отдельными нейронами, чтобы усиливать или подавлять определенные виды поведения.

В другом примере исследователи Goodfire спросили модель, следует ли компании раскрывать информацию о том, что ее ИИ ведет себя обманным образом в 0,3% случаев, затрагивая 200 миллионов пользователей. Модель ответила отрицательно, сославшись на негативные последствия такого раскрытия для бизнеса.

Изучив внутреннюю структуру модели, исследователи обнаружили, что активация нейронов, связанных с прозрачностью и раскрытием информации, в девяти случаях из десяти меняла ответ с «нет» на «да». «Модель уже обладала механизмами этического мышления, но их возможности перевешивались оценкой коммерческих рисков», — говорит Хо.

Корректировка значений модели таким образом — это лишь один из подходов. Silico также может помочь управлять процессом обучения, отфильтровывая определенные обучающие данные, чтобы избежать установки нежелательных значений для определенных параметров.

Например, многие модели покажут, что 9.11 больше, чем 9.9. Если заглянуть внутрь модели и посмотреть, что происходит, можно обнаружить, что на неё влияют нейроны, связанные с Библией, где стих 9.9 предшествует 9.11, или репозитории кода, где последовательные обновления нумеруются 9.9, 9.10, 9.11 и так далее. Используя эту информацию, модель можно переобучить, чтобы она избегала своих «библейских» нейронов при выполнении математических операций.

Выпуская Silico, компания Goodfire хочет предоставить доступ к технологиям, ранее доступным лишь нескольким ведущим лабораториям, более мелким фирмам и исследовательским группам, желающим создать собственную модель или адаптировать модель с открытым исходным кодом. Инструмент будет предоставляться за плату, размер которой определяется индивидуально в зависимости от требований заказчика (Goodfire отказалась предоставить конкретные ценовые детали).

«Если мы сможем сделать процесс обучения моделей гораздо более похожим на разработку программного обеспечения, то нет причин, по которым гораздо больше компаний не смогут создавать модели, отвечающие их потребностям», — говорит Хо.

Береска согласен с тем, что такие инструменты, как Silico, могут помочь компаниям создавать более надежные модели. По его словам, эти методы могут быть необходимы для критически важных приложений в здравоохранении и финансах.

«В передовых лабораториях уже есть внутренние группы по обеспечению интерпретируемости данных», — добавляет он. «Silico же предоставляет возможности компаниям следующего уровня, где ценность заключается в том, что им не нужно нанимать исследователей в области интерпретируемости данных».

Источник: www.technologyreview.com

Оцените материал:

Оставить комментарий Отменить ответ

Для отправки комментария вам необходимо авторизоваться.

Новый инструмент механистической интерпретируемости этого стартапа позволяет отлаживать LLM-ы.

Связанная статья

Модели картирования

Связанная статья

Оставить комментарий Отменить ответ

Связанная статья

Модели картирования

Связанная статья

Похожие записи

Похожие записи

Инновационная панель Impulse меняет правила готовки

Ведущий ученый выступил с разоблачением «климатической истерии»

Высокий уровень свинца в костях связали с повышенной сердечно-сосудистой смертностью. Металл повлиял на 3,5 миллиона смертей в 2023 году

Оставить комментарий Отменить ответ

Присоединяйтесь и подпишитесь на рассылку самых свежих новостей по Email