Закажи экспресс-аудит своего дела онлайн всего за 199 ₽
и получи рекомендации по улучшению - Жми сюда !

Новый инструмент механистической интерпретируемости этого стартапа позволяет отлаживать LLM-ы.

Рука с плоскогубцами тыкает в ремень, прикрепленный к сложной системе клапанов и переключателей.

Стефани Арнетт/MIT Technology Review | Adobe Stock

Стартап Goodfire из Сан-Франциско выпустил новый инструмент под названием Silico, который позволяет исследователям и инженерам заглядывать внутрь модели ИИ и корректировать ее параметры — настройки, определяющие поведение модели — во время обучения. Это может дать создателям моделей более точный контроль над процессом построения этой технологии, чем считалось ранее возможным.

Компания Goodfire утверждает, что Silico — это первый в своем роде готовый инструмент, который может помочь разработчикам отлаживать все этапы процесса разработки, от создания набора данных до обучения модели.

Линейные модели содержат ОЧЕНЬ много параметров. Но что такое параметр? Читайте дальше.

Компания заявляет, что её миссия — сделать создание моделей ИИ не столько алхимией, сколько наукой. Конечно, такие LLM-системы, как ChatGPT и Gemini, способны на удивительные вещи. Но никто точно не знает, как и почему они работают, и это может затруднить исправление их недостатков или блокировку нежелательного поведения.

«Мы наблюдали растущий разрыв между тем, насколько хорошо понимались модели, и тем, насколько широко они применялись», — говорит генеральный директор Goodfire Эрик Хо в эксклюзивном интервью MIT Technology Review перед выпуском Silico. «Я думаю, что сегодня в каждой крупной передовой лаборатории преобладает мнение, что вам просто нужно больше масштаба, больше вычислительных мощностей, больше данных, и тогда вы получите ИИ [искусственный общий интеллект], и все остальное не имеет значения. А мы говорим: нет, есть лучший способ».

Goodfire — одна из немногих компаний, включая лидеров отрасли Anthropic, OpenAI и Google DeepMind, которая внедряет метод, известный как механистическая интерпретируемость. Цель этого метода — понять, что происходит внутри модели ИИ при выполнении ею задачи, путем сопоставления ее нейронов и связей между ними. (MIT Technology Review включил механистическую интерпретируемость в свой список 10 прорывных технологий 2026 года.)

Компания Goodfire хочет использовать этот подход не только для аудита моделей — то есть для изучения уже обученных моделей, — но и для помощи в их первоначальном проектировании.

«Мы хотим избавиться от метода проб и ошибок и превратить обучающие модели в высокоточное инженерное дело», — говорит Хо. «А это значит, что нужно сделать доступным все элементы управления, чтобы вы могли использовать их в процессе обучения».

Компания Goodfire уже использовала свои методы и инструменты для корректировки поведения LLM — например, для уменьшения количества вызываемых ими галлюцинаций. С помощью Silico компания теперь интегрирует многие из этих собственных методов и выпускает их в виде готового продукта.

Инструмент использует агентов для автоматизации большей части сложной работы. «Сейчас агенты достаточно сильны, чтобы выполнять большую часть работы по обеспечению интерпретируемости, которую раньше мы делали с помощью людей», — говорит Хо. «Это был тот пробел, который нужно было преодолеть, прежде чем эта платформа стала бы действительно жизнеспособной для самостоятельного использования клиентами».

Леонард Береска, исследователь из Амстердамского университета, работавший над механистической интерпретируемостью, считает, что Silico выглядит полезным инструментом. Но он не одобряет более высокие амбиции Гудфайра. «В действительности они добавляют точности к алхимии, — говорит он. — Называя это инженерным делом, это звучит более принципиально, чем есть на самом деле».

Модели картирования

Silico позволяет детально изучить определенные части обученной модели, такие как отдельные нейроны или группы нейронов, и провести эксперименты, чтобы увидеть, что делают эти нейроны. (При условии, что у вас есть доступ к внутреннему устройству модели. Большинство пользователей не смогут использовать Silico для изучения ChatGPT или Gemini, но вы можете использовать его для просмотра параметров многих моделей с открытым исходным кодом.) Затем вы можете проверить, какие входные сигналы заставляют срабатывать разные нейроны, и проследить пути вверх и вниз по цепям нейрона, чтобы увидеть, как другие нейроны влияют на него и как он, в свою очередь, влияет на другие нейроны.

Например, Гудфайр обнаружил в модели с открытым исходным кодом Qwen 3 один нейрон, связанный с так называемой проблемой вагонетки. Активация этого нейрона изменяла реакции модели, заставляя её формулировать свои результаты как явные моральные дилеммы. «Когда этот нейрон активен, происходят всякие странные вещи», — говорит Хо.

Познакомьтесь с новыми биологами, которые относятся к LLM как к инопланетянам. Читайте далее.

Выявление источника подобного странного поведения стало довольно стандартной практикой. Но Goodfire хочет упростить настройку этого поведения. Используя Silico, разработчики теперь могут корректировать параметры, связанные с отдельными нейронами, чтобы усиливать или подавлять определенные виды поведения.

В другом примере исследователи Goodfire спросили модель, следует ли компании раскрывать информацию о том, что ее ИИ ведет себя обманным образом в 0,3% случаев, затрагивая 200 миллионов пользователей. Модель ответила отрицательно, сославшись на негативные последствия такого раскрытия для бизнеса.

Изучив внутреннюю структуру модели, исследователи обнаружили, что активация нейронов, связанных с прозрачностью и раскрытием информации, в девяти случаях из десяти меняла ответ с «нет» на «да». «Модель уже обладала механизмами этического мышления, но их возможности перевешивались оценкой коммерческих рисков», — говорит Хо.

Корректировка значений модели таким образом — это лишь один из подходов. Silico также может помочь управлять процессом обучения, отфильтровывая определенные обучающие данные, чтобы избежать установки нежелательных значений для определенных параметров.

Например, многие модели покажут, что 9.11 больше, чем 9.9. Если заглянуть внутрь модели и посмотреть, что происходит, можно обнаружить, что на неё влияют нейроны, связанные с Библией, где стих 9.9 предшествует 9.11, или репозитории кода, где последовательные обновления нумеруются 9.9, 9.10, 9.11 и так далее. Используя эту информацию, модель можно переобучить, чтобы она избегала своих «библейских» нейронов при выполнении математических операций.

Выпуская Silico, компания Goodfire хочет предоставить доступ к технологиям, ранее доступным лишь нескольким ведущим лабораториям, более мелким фирмам и исследовательским группам, желающим создать собственную модель или адаптировать модель с открытым исходным кодом. Инструмент будет предоставляться за плату, размер которой определяется индивидуально в зависимости от требований заказчика (Goodfire отказалась предоставить конкретные ценовые детали).

«Если мы сможем сделать процесс обучения моделей гораздо более похожим на разработку программного обеспечения, то нет причин, по которым гораздо больше компаний не смогут создавать модели, отвечающие их потребностям», — говорит Хо.

Береска согласен с тем, что такие инструменты, как Silico, могут помочь компаниям создавать более надежные модели. По его словам, эти методы могут быть необходимы для критически важных приложений в здравоохранении и финансах.

«В передовых лабораториях уже есть внутренние группы по обеспечению интерпретируемости данных», — добавляет он. «Silico же предоставляет возможности компаниям следующего уровня, где ценность заключается в том, что им не нужно нанимать исследователей в области интерпретируемости данных».

Источник: www.technologyreview.com

✅ Найденные теги: LLM, Инструмент, Интерпретируемость, Механистическая, новости, стартап, 👔Новый

Добавить комментарий

Новости других рубрик

Архив рубрики ~Лента новостей~: Компания Coatue планирует выкупить землю под центры обработки данных, возможно, для Anthropic. Архив рубрики ~Лента новостей~: Маготы поели земли. Они могли защищаться от содержащихся во вредной еде токсинов Архив рубрики ~Лента новостей~: Стратегия Amazon с OpenAI знаменует собой новый этап в войне за облачные технологии — этап, на котором эксклюзивность больше не актуальна. Архив рубрики ~Лента новостей~: GPT-5.5 Награда за биологические ошибки | ОпенАИ Архив рубрики ~Лента новостей~: Пока компания X закрывает Communities, Acorn представляет альтернативу, которая предоставляет создателям контента полный контроль. Архив рубрики ~Лента новостей~: STAT+: CMS предлагает отменить революционные гибкие условия оплаты медицинских устройств. Архив рубрики ~Лента новостей~: Как развернуть свое первое приложение в FastAPI Cloud Архив рубрики ~Лента новостей~: В медицинском центре Университета Толедо использование искусственного интеллекта в фоновом режиме сокращает количество открытых медицинских карт и улучшает документацию.