Image

Дистилляция может сделать модели ИИ меньше и дешевле

Фундаментальная методика позволяет исследователям использовать большую и дорогую модель для обучения другой модели за меньшие деньги.

Дистилляция может сделать модели ИИ меньше и дешевле Иллюстрация: Нико Х. Брауш для журнала Quanta

Сохранить историю Сохранить эту историю Сохранить историю Сохранить эту историю

Оригинальная версия этой истории была опубликована в журнале Quanta Magazine.

Ранее в этом году китайская компания DeepSeek, занимающаяся разработкой ИИ, выпустила чат-бот R1, который привлёк огромное внимание. В основном, внимание было сосредоточено на заявлении относительно небольшой и неизвестной компании о создании чат-бота, который по производительности не уступает чат-ботам самых известных мировых компаний в области ИИ, но при этом использует лишь малую долю вычислительной мощности и стоимости. В результате акции многих западных технологических компаний резко упали; акции Nvidia, продающей чипы для ведущих моделей ИИ, потеряли за один день больше акций, чем любая другая компания в истории.

В этом внимании присутствовал элемент обвинения. Источники утверждали, что DeepSeek без разрешения получила информацию из собственной модели OpenAI o1, используя метод, известный как дистилляция. В новостях это событие часто преподносилось как шок для индустрии ИИ, подразумевая, что DeepSeek открыла новый, более эффективный способ создания ИИ.

Однако дистилляция, также называемая дистилляцией знаний, — широко используемый инструмент в области искусственного интеллекта, предмет исследований в области компьютерных наук, начавшийся десять лет назад, и инструмент, который крупные технологические компании используют в своих моделях. «Дистилляция — один из важнейших инструментов, доступных компаниям сегодня для повышения эффективности моделей», — сказал Энрик Буа-Адсера, исследователь, изучающий дистилляцию в Школе бизнеса Уортона Пенсильванского университета.

Темные знания

Идея дистилляции зародилась в 2015 году в статье трёх исследователей из Google, включая Джеффри Хинтона, так называемого «крёстного отца» ИИ и лауреата Нобелевской премии 2024 года. В то время исследователи часто запускали ансамбли моделей — «множество моделей, склеенных вместе», как сказал Ориол Виньялс, ведущий научный сотрудник Google DeepMind и один из авторов статьи, — чтобы повысить их эффективность. «Но параллельное использование всех моделей было невероятно громоздким и дорогим», — сказал Виньялс. «Нас заинтриговала идея объединить всё это в одну модель».

«Дистилляция — один из важнейших инструментов, имеющихся сегодня в распоряжении компаний для повышения эффективности моделей».

Энрик Буа-Адсера

Исследователи полагали, что смогут добиться прогресса, устранив заметное слабое место алгоритмов машинного обучения: все неправильные ответы считались одинаково плохими, независимо от степени их ошибочности. Например, в модели классификации изображений «перепутывание собаки с лисой наказывалось так же, как перепутывание собаки с пиццей», — сказал Виньялс. Исследователи подозревали, что ансамблевые модели действительно содержат информацию о том, какие неправильные ответы были менее плохими, чем другие. Возможно, меньшая модель «ученика» могла бы использовать информацию из большей модели «учителя», чтобы быстрее усваивать категории, по которым она должна сортировать изображения. Хинтон назвал это «тёмным знанием», проведя аналогию с космологической тёмной материей.

Обсудив эту возможность с Хинтоном, Виньялс разработал способ заставить большую модель учителя передавать больше информации о категориях изображений меньшей модели ученика. Ключевым моментом было сосредоточение на «мягких целях» в модели учителя, где она присваивает вероятности каждой возможности, а не даёт твёрдые ответы. Одна модель, например, вычислила, что существует 30% вероятность того, что на изображении изображена собака, 20% — что на нём изображена кошка, 5% — что на нём изображена корова, и 0,5% — что на нём изображен автомобиль. Используя эти вероятности, модель учителя фактически показала ученику, что собаки очень похожи на кошек, не так уж сильно отличаются от коров и существенно отличаются от автомобилей. Исследователи обнаружили, что эта информация поможет ученику научиться более эффективно распознавать изображения собак, кошек, коров и автомобилей. Большую, сложную модель можно было упростить до более простой практически без потери точности.

Взрывной рост

Идея не сразу стала хитом. Доклад был отклонен на конференции, и Виньялс, обескураженный, обратился к другим темам. Но кульминация пришлась на важный момент. Примерно в это же время инженеры обнаружили, что чем больше обучающих данных они загружают в нейронные сети, тем эффективнее они становятся. Размеры моделей вскоре резко возросли, как и их возможности, но стоимость их эксплуатации росла пропорционально их размеру.

Многие исследователи обратились к дистилляции как к способу создания более компактных моделей. Например, в 2018 году исследователи Google представили мощную языковую модель BERT, которую компания вскоре начала использовать для анализа миллиардов поисковых запросов в интернете. Но BERT был громоздким и дорогостоящим в использовании, поэтому в следующем году другие разработчики создали уменьшенную версию, получившую разумное название DistilBERT, которая получила широкое применение в бизнесе и исследованиях. Постепенно дистилляция стала повсеместной, и теперь её предлагают в качестве услуги такие компании, как Google, OpenAI и Amazon. Оригинальная статья о дистилляции, до сих пор опубликованная только на сервере препринтов arxiv.org, к настоящему моменту процитирована более 25 000 раз.

Учитывая, что для извлечения данных требуется доступ к внутренней структуре модели учителя, третья сторона не сможет скрытно извлечь данные из модели с закрытым исходным кодом, например, o1 от OpenAI, как, как предполагалось, сделал DeepSeek. Тем не менее, модель ученика всё равно может многому научиться у модели учителя, просто задавая учителю определённые вопросы и используя ответы для обучения своих собственных моделей — почти сократовский подход к извлечению данных.

Тем временем другие исследователи продолжают находить новые приложения. В январе лаборатория NovaSky в Калифорнийском университете в Беркли продемонстрировала, что дистилляция хорошо подходит для обучения моделей рассуждений на основе цепочки мыслей, которые используют многошаговое «мышление» для более точного ответа на сложные вопросы. В лаборатории утверждают, что обучение модели Sky-T1 с полностью открытым исходным кодом обошлось менее чем в 450 долларов, и она достигла результатов, сопоставимых с гораздо более крупной моделью с открытым исходным кодом. «Мы были искренне удивлены тем, насколько хорошо дистилляция сработала в этой ситуации», — сказал Дачэн Ли, аспирант Беркли и соруководитель команды NovaSky. «Дистилляция — фундаментальный метод в области искусственного интеллекта».

Оригинальная статья перепечатана с разрешения журнала Quanta Magazine, редакционно-независимого издания Фонда Саймонса, миссия которого заключается в повышении уровня понимания науки среди общественности путем освещения научных разработок и тенденций в области математики, физических и биологических наук.

Источник: www.wired.com

✅ Найденные теги: Дистилляция, новости
Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Фото сгенерированных лиц: исследование показывает, что люди не могут отличить настоящие лица от сгенерированных
Нейросети построили капитализм за трое суток: 100 агентов Claude заперли…
Скетч: цифровой осьминог и виртуальный мир внутри компьютера с человечком.
Сцена с жестами пальцами, где один жест символизирует "VPN", а другой "KHP".
‼️Paramount купила Warner Bros. Discovery — сумма сделки составила безумные…
Скриншот репозитория GitHub "Claude Scientific Skills" AI для научных исследований.
Структура эффективного запроса Claude с элементами задачи, контекста и референса.
Эскиз и готовая веб-страница платформы для AI-дизайна в современном темном режиме.
ideipro logotyp
Image Not Found
Звёздное небо с галактиками и туманностями, космос, Вселенная, астрофотография.

Система оповещения обсерватории Рубина отправила 800 000 сигналов в первую ночь наблюдений.

Астрономы будут получать оповещения о небесных явлениях в течение нескольких минут после их обнаружения. Теренс О'Брайен, редактор раздела «Выходные». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной…

Мар 2, 2026
Женщина с длинными тёмными волосами в синем свете, нейтральный фон.

Расследование в отношении 61-фунтовой машины, которая «пожирает» пластик и выплевывает кирпичи.

Обзор компактного пресса для мягкого пластика Clear Drop — и что будет дальше. Шон Холлистер, старший редактор Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего…

Мар 2, 2026
Черный углеродное волокно с текстурой плетения, отражающий свет.

Материал будущего: как работает «бессмертный» композит

Учёные из Университета штата Северная Каролина представили композит нового поколения, способный самостоятельно восстанавливаться после серьёзных повреждений.  Речь идёт о модифицированном армированном волокном полимере (FRP), который не просто сохраняет прочность при малом весе, но и способен «залечивать» внутренние…

Мар 2, 2026
Круглый экран с изображением замка и горы, рядом электронная плата.

Круглый дисплей Waveshare для креативных проектов

Круглый 7-дюймовый сенсорный дисплей от Waveshare создан для разработчиков и дизайнеров, которым нужен нестандартный экран.  Это IPS-панель с разрешением 1 080×1 080 пикселей, поддержкой 10-точечного ёмкостного сенсора, оптической склейкой и защитным закалённым стеклом, выполненная в круглом форм-факторе.…

Мар 2, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых