Архив рубрики ~Лента новостей~

Новый инструмент механистической интерпретируемости этого стартапа позволяет отлаживать LLM-ы.

Новый инструмент механистической интерпретируемости этого стартапа позволяет отлаживать LLM-ы.

Стартап Goodfire из Сан-Франциско выпустил новый инструмент под названием Silico, который позволяет исследователям и инженерам заглядывать внутрь модели ИИ и корректировать ее параметры — настройки, определяющие поведение модели — во время обучения. Это может дать создателям моделей более точный контроль над процессом построения этой технологии, чем считалось ранее возможным.

Компания Goodfire утверждает, что Silico — это первый в своем роде готовый инструмент, который может помочь разработчикам отлаживать все этапы процесса разработки, от создания набора данных до обучения модели.

Линейные модели содержат ОЧЕНЬ много параметров. Но что такое параметр? Читайте дальше.

Компания заявляет, что её миссия — сделать создание моделей ИИ не столько алхимией, сколько наукой. Конечно, такие LLM-системы, как ChatGPT и Gemini, способны на удивительные вещи. Но никто точно не знает, как и почему они работают, и это может затруднить исправление их недостатков или блокировку нежелательного поведения.

«Мы наблюдали растущий разрыв между тем, насколько хорошо понимались модели, и тем, насколько широко они применялись», — говорит генеральный директор Goodfire Эрик Хо в эксклюзивном интервью MIT Technology Review перед выпуском Silico. «Я думаю, что сегодня в каждой крупной передовой лаборатории преобладает мнение, что вам просто нужно больше масштаба, больше вычислительных мощностей, больше данных, и тогда вы получите ИИ [искусственный общий интеллект], и все остальное не имеет значения. А мы говорим: нет, есть лучший способ».

Goodfire — одна из немногих компаний, включая лидеров отрасли Anthropic, OpenAI и Google DeepMind, которая внедряет метод, известный как механистическая интерпретируемость. Цель этого метода — понять, что происходит внутри модели ИИ при выполнении ею задачи, путем сопоставления ее нейронов и связей между ними. (MIT Technology Review включил механистическую интерпретируемость в свой список 10 прорывных технологий 2026 года.)

Компания Goodfire хочет использовать этот подход не только для аудита моделей — то есть для изучения уже обученных моделей, — но и для помощи в их первоначальном проектировании.

«Мы хотим избавиться от метода проб и ошибок и превратить обучающие модели в высокоточное инженерное дело», — говорит Хо. «А это значит, что нужно сделать доступным все элементы управления, чтобы вы могли использовать их в процессе обучения».

Компания Goodfire уже использовала свои методы и инструменты для корректировки поведения LLM — например, для уменьшения количества вызываемых ими галлюцинаций. С помощью Silico компания теперь интегрирует многие из этих собственных методов и выпускает их в виде готового продукта.

Инструмент использует агентов для автоматизации большей части сложной работы. «Сейчас агенты достаточно сильны, чтобы выполнять большую часть работы по обеспечению интерпретируемости, которую раньше мы делали с помощью людей», — говорит Хо. «Это был тот пробел, который нужно было преодолеть, прежде чем эта платформа стала бы действительно жизнеспособной для самостоятельного использования клиентами».

Леонард Береска, исследователь из Амстердамского университета, работавший над механистической интерпретируемостью, считает, что Silico выглядит полезным инструментом. Но он не одобряет более высокие амбиции Гудфайра. «В действительности они добавляют точности к алхимии, — говорит он. — Называя это инженерным делом, это звучит более принципиально, чем есть на самом деле».

Модели картирования

Silico позволяет детально изучить определенные части обученной модели, такие как отдельные нейроны или группы нейронов, и провести эксперименты, чтобы увидеть, что делают эти нейроны. (При условии, что у вас есть доступ к внутреннему устройству модели. Большинство пользователей не смогут использовать Silico для изучения ChatGPT или Gemini, но вы можете использовать его для просмотра параметров многих моделей с открытым исходным кодом.) Затем вы можете проверить, какие входные сигналы заставляют срабатывать разные нейроны, и проследить пути вверх и вниз по цепям нейрона, чтобы увидеть, как другие нейроны влияют на него и как он, в свою очередь, влияет на другие нейроны.

Например, Гудфайр обнаружил в модели с открытым исходным кодом Qwen 3 один нейрон, связанный с так называемой проблемой вагонетки. Активация этого нейрона изменяла реакции модели, заставляя её формулировать свои результаты как явные моральные дилеммы. «Когда этот нейрон активен, происходят всякие странные вещи», — говорит Хо.

Познакомьтесь с новыми биологами, которые относятся к LLM как к инопланетянам. Читайте далее.

Выявление источника подобного странного поведения стало довольно стандартной практикой. Но Goodfire хочет упростить настройку этого поведения. Используя Silico, разработчики теперь могут корректировать параметры, связанные с отдельными нейронами, чтобы усиливать или подавлять определенные виды поведения.

В другом примере исследователи Goodfire спросили модель, следует ли компании раскрывать информацию о том, что ее ИИ ведет себя обманным образом в 0,3% случаев, затрагивая 200 миллионов пользователей. Модель ответила отрицательно, сославшись на негативные последствия такого раскрытия для бизнеса.

Изучив внутреннюю структуру модели, исследователи обнаружили, что активация нейронов, связанных с прозрачностью и раскрытием информации, в девяти случаях из десяти меняла ответ с «нет» на «да». «Модель уже обладала механизмами этического мышления, но их возможности перевешивались оценкой коммерческих рисков», — говорит Хо.

Корректировка значений модели таким образом — это лишь один из подходов. Silico также может помочь управлять процессом обучения, отфильтровывая определенные обучающие данные, чтобы избежать установки нежелательных значений для определенных параметров.

Например, многие модели покажут, что 9.11 больше, чем 9.9. Если заглянуть внутрь модели и посмотреть, что происходит, можно обнаружить, что на неё влияют нейроны, связанные с Библией, где стих 9.9 предшествует 9.11, или репозитории кода, где последовательные обновления нумеруются 9.9, 9.10, 9.11 и так далее. Используя эту информацию, модель можно переобучить, чтобы она избегала своих «библейских» нейронов при выполнении математических операций.

Выпуская Silico, компания Goodfire хочет предоставить доступ к технологиям, ранее доступным лишь нескольким ведущим лабораториям, более мелким фирмам и исследовательским группам, желающим создать собственную модель или адаптировать модель с открытым исходным кодом. Инструмент будет предоставляться за плату, размер которой определяется индивидуально в зависимости от требований заказчика (Goodfire отказалась предоставить конкретные ценовые детали).

«Если мы сможем сделать процесс обучения моделей гораздо более похожим на разработку программного обеспечения, то нет причин, по которым гораздо больше компаний не смогут создавать модели, отвечающие их потребностям», — говорит Хо.

Береска согласен с тем, что такие инструменты, как Silico, могут помочь компаниям создавать более надежные модели. По его словам, эти методы могут быть необходимы для критически важных приложений в здравоохранении и финансах.

«В передовых лабораториях уже есть внутренние группы по обеспечению интерпретируемости данных», — добавляет он. «Silico же предоставляет возможности компаниям следующего уровня, где ценность заключается в том, что им не нужно нанимать исследователей в области интерпретируемости данных».

Источник: www.technologyreview.com

Оцените материал:

Поделиться
Понравилась статья? Расскажите другим
ВКонтакте
Читайте также
Архив рубрики ~Обо всем~ Оформите подписку Walmart Plus со скидкой 50% прямо сейчас! Архив рубрики ~Коротко из Telegram~ Московский метрополитен начал масштабный перевод пассажирской инфраструктуры на российскую операционную… Архив рубрики ~Коротко из Telegram~ Кстати, если вы хотели сделать свою wiki-LLM, но было жалко… Архив рубрики ~Обо всем~ Искусственный интеллект отображает скрытые факторы, влияющие на выживаемость при раке во всем мире. Новости робототехники TechCrunch Mobility: Новая таблица показателей роботакси демонстрирует доминирование Китая. Новости робототехники Прорыв, благодаря которому лица роботов стали менее жуткими. Новости робототехники Роботизированная рука, созданная по образцу осьминога, использует тактильные датчики в присосках для автономного захвата под водой. Архив рубрики ~Обо всем~ Лучшие предложения Sam's Club, способные конкурировать с Prime Day 2026 (включая скидку 50% на членство). Архив рубрики ~Обо всем~ Наушники AirPods могут измерять частоту сердечных сокращений, но насколько точны эти измерения? Архив рубрики ~Обо всем~ Этот ИИ обнаруживает опасные клетки крови, которые врачи часто пропускают. Новости робототехники Как насчёт роботов с лейблом Made in Kazakhstan? Это не… Новости робототехники Будущий дизайн бионических рук. Ради собственного развития решил поэксперементировать, как… Архив рубрики ~Коротко из Telegram~ OpenAI забрала у Google одного из ключевых AI-ресёрчеров Ноам Шазир… Архив рубрики ~Коротко из Telegram~ Hyundai выкупил у холдинга SoftBank оставшуюся долю акций Boston Dynamics,… Архив рубрики ~Обо всем~ Оформите подписку Walmart Plus со скидкой 50% прямо сейчас! Архив рубрики ~Коротко из Telegram~ Московский метрополитен начал масштабный перевод пассажирской инфраструктуры на российскую операционную… Архив рубрики ~Коротко из Telegram~ Кстати, если вы хотели сделать свою wiki-LLM, но было жалко… Архив рубрики ~Обо всем~ Искусственный интеллект отображает скрытые факторы, влияющие на выживаемость при раке во всем мире. Новости робототехники TechCrunch Mobility: Новая таблица показателей роботакси демонстрирует доминирование Китая. Новости робототехники Прорыв, благодаря которому лица роботов стали менее жуткими. Новости робототехники Роботизированная рука, созданная по образцу осьминога, использует тактильные датчики в присосках для автономного захвата под водой. Архив рубрики ~Обо всем~ Лучшие предложения Sam's Club, способные конкурировать с Prime Day 2026 (включая скидку 50% на членство). Архив рубрики ~Обо всем~ Наушники AirPods могут измерять частоту сердечных сокращений, но насколько точны эти измерения? Архив рубрики ~Обо всем~ Этот ИИ обнаруживает опасные клетки крови, которые врачи часто пропускают. Новости робототехники Как насчёт роботов с лейблом Made in Kazakhstan? Это не… Новости робототехники Будущий дизайн бионических рук. Ради собственного развития решил поэксперементировать, как… Архив рубрики ~Коротко из Telegram~ OpenAI забрала у Google одного из ключевых AI-ресёрчеров Ноам Шазир… Архив рубрики ~Коротко из Telegram~ Hyundai выкупил у холдинга SoftBank оставшуюся долю акций Boston Dynamics,…

Оставить комментарий