Image

Ученые предложили новый метод обучения биполярных нейронных сетей с помощью дистилляции знаний

Исследование, проведенное коллективом российских ученых, является шагом вперед в области нейронных сетей и их обучения. В своей работе они предложили новую структуру биполярного морфологического нейрона и метод обучения, который может повысить вычислительную эффективность нейронных сетей. Исследование опубликовано в Programming and Computer Software.

 Современные системы распознавания образов трудно представить без нейронных сетей. Эти технологии нашли широкое применение в мобильных и специализированных устройствах. На протяжении последних десятилетий исследователи искали способы улучшения производительности нейронных сетей, разрабатывая различные подходы, такие как квантование нейронных сетей и удаление весов. Одним из наиболее перспективных направлений стало создание упрощенных моделей нейронов, которые используют менее сложные операции по сравнению с классическими моделями.

 Биполярный морфологический нейрон — это модель, которая использует операции сложения и взятия максимума вместо умножения и сложения, характерных для классических нейронов. Эта модель потенциально более энергоэффективна, так как операции сложения требуют меньше вычислительных ресурсов, чем операции умножения. Однако, несмотря на свои преимущества, биполярные морфологические нейроны требуют четыре ветви вычислений для достижения удовлетворительного качества распознавания, а также сталкиваются с трудностями при обучении.

 В новой работе ученые из МФТИ и Smart Engines с коллегами представили полутораветочную  модель биполярного морфологического нейрона, которая сокращает количество вычислительных веток с четырех до одной. Кроме того, они разработали для этой модели новый метод обучения, который позволяет достичь точности, сопоставимой с классическими моделями. Основной целью исследования было улучшение структуры нейрона, что, в свою очередь, должно было повысить его вычислительную эффективность.

 В процессе исследования использовался метод дистилляции знаний, который позволяет передавать информацию от учительской сети к ученической. Этот метод включает в себя изменение функции потерь, учитывающей выходы как ученической, так и учительской сетей. Результаты показали, что для LeNet-подобных сверточных моделей на выборке MNIST точность классификации составила 99,45 %, а на выборке CIFAR10 — 86,69 %. Эти показатели не уступают результатам классических нейронных сетей, что подтверждает эффективность предложенного подхода.

 Во время обучения ученическая сеть строится последовательно слой за слоем. Для каждого добавляемого слоя к функции потерь добавляется среднеквадратичная ошибка между ним и классическим слоем учительской сети (CNN), после этого выход добавленного слоя передается в следующий слой учительской сети. На следующем шаге только что обученный слой фиксируется и выполняется обучение следующего слоя. В итоге к концу обучения будет обучена вся ученическая сеть. 

 

Рисунок 1. Принцип работы послойной дистилляции знания для БМ моделей для двух последовательно добавляемых слоев: а) для первого слоя, б) для второго слоя. Источник: Programming and Computer Software.
Рисунок 1. Принцип работы послойной дистилляции знания для БМ моделей для двух последовательно добавляемых слоев: а) для первого слоя, б) для второго слоя. Источник: Programming and Computer Software.

 

Однако классический метод обратного распространения ошибки работает медленно с биполярными морфологическими нейронами из-за операции поиска максимума. Эта операция заставляет алгоритм обновлять лишь один вес на каждой итерации. Чтобы ускорить обучение, авторы исследования использовали непрерывную аппроксимацию для операции максимума, которая позволяет алгоритму сходиться быстрее благодаря обновлению большего количества весов за один шаг. 

 В исследовании были проанализированы результаты работы алгоритма обучения нейронной сети, использующие три разных формулы аппроксимации максимума, причем каждая из этих формул зависела от одного вещественного параметра. 

 Все три аппроксимации при значении параметра α больше 20 практически неотличимы от настоящего максимума. При использовании этих аппроксимаций при не слишком больших значениях параметра ɑ в нейронах на каждом шаге обратного распространения ошибки будет обновляться большее число весов, чем при использовании точного максимума, и это значительно улучшает обучаемость сети.

 

Рисунок 2. Средняя абсолютная ошибка отклонения аппроксимации от значения максимума в зависимости от параметра приближения ɑ. Источник: Programming and Computer Software.
Рисунок 2. Средняя абсолютная ошибка отклонения аппроксимации от значения максимума в зависимости от параметра приближения ɑ. Источник: Programming and Computer Software.

 Для обучения моделей с помощью описанных методов дистилляции знаний использовались непрерывные аппроксимации максимума в два этапа. Первый этап — это обучение модели с аппроксимацией с помощью дистилляции знаний. Поскольку в предложенных аппроксимациях есть операции умножения и деления, то нужен еще один этап, в котором аппроксимация заменяется на точный максимум с сохранением полученных ранее весов. Далее получившаяся сеть дообучается с помощью дистилляции знаний. 

Рисунок 3. Алгоритм обучения БМ модели с непрерывной аппроксимацией максимума. Источник: Programming and Computer Software.
Рисунок 3. Алгоритм обучения БМ модели с непрерывной аппроксимацией максимума. Источник: Programming and Computer Software.

 

«Мы исследовали новый способ построения нейронной сети, продемонстрировав, что наш метод обучения позволяет достигать высоких результатов с упрощенной структурой нейронов. Это открывает путь к созданию более энергоэффективных и быстрых нейронных сетей», — отметил Михаил Зингеренко, аспирант МФТИ.

 Работа открывает новые возможности для развития технологий, основанных на биполярных морфологических нейронных сетях. Они представляют интерес в тех областях, где необходимо использование специализированных распознающих устройств, отличающихся аппаратной и энергетической эффективностью, таких как медицинская диагностика, автономные системы и многие другие.

 Следующие шаги в этой области включают дальнейшие эксперименты и дополнительные компьютерные симуляции, которые могут привести к новым открытиям и улучшениям в области биполярных морфологических нейронных сетей и их применения в реальных задачах. Ученые планируют исследовать влияние различных архитектур таких сетей на эффективность и точность классификации, а также возможности интеграции новых методов обучения в существующие системы.

 Таким образом, исследование российских ученых является важным вкладом в развитие нейронных сетей и их применение.

Источник: habr.com

✅ Найденные теги: новости, ученые
Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Фото сгенерированных лиц: исследование показывает, что люди не могут отличить настоящие лица от сгенерированных
Нейросети построили капитализм за трое суток: 100 агентов Claude заперли…
Скетч: цифровой осьминог и виртуальный мир внутри компьютера с человечком.
Сцена с жестами пальцами, где один жест символизирует "VPN", а другой "KHP".
‼️Paramount купила Warner Bros. Discovery — сумма сделки составила безумные…
Скриншот репозитория GitHub "Claude Scientific Skills" AI для научных исследований.
Структура эффективного запроса Claude с элементами задачи, контекста и референса.
Эскиз и готовая веб-страница платформы для AI-дизайна в современном темном режиме.
ideipro logotyp
Image Not Found
Звёздное небо с галактиками и туманностями, космос, Вселенная, астрофотография.

Система оповещения обсерватории Рубина отправила 800 000 сигналов в первую ночь наблюдений.

Астрономы будут получать оповещения о небесных явлениях в течение нескольких минут после их обнаружения. Теренс О'Брайен, редактор раздела «Выходные». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной…

Мар 2, 2026
Женщина с длинными тёмными волосами в синем свете, нейтральный фон.

Расследование в отношении 61-фунтовой машины, которая «пожирает» пластик и выплевывает кирпичи.

Обзор компактного пресса для мягкого пластика Clear Drop — и что будет дальше. Шон Холлистер, старший редактор Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего…

Мар 2, 2026
Черный углеродное волокно с текстурой плетения, отражающий свет.

Материал будущего: как работает «бессмертный» композит

Учёные из Университета штата Северная Каролина представили композит нового поколения, способный самостоятельно восстанавливаться после серьёзных повреждений.  Речь идёт о модифицированном армированном волокном полимере (FRP), который не просто сохраняет прочность при малом весе, но и способен «залечивать» внутренние…

Мар 2, 2026
Круглый экран с изображением замка и горы, рядом электронная плата.

Круглый дисплей Waveshare для креативных проектов

Круглый 7-дюймовый сенсорный дисплей от Waveshare создан для разработчиков и дизайнеров, которым нужен нестандартный экран.  Это IPS-панель с разрешением 1 080×1 080 пикселей, поддержкой 10-точечного ёмкостного сенсора, оптической склейкой и защитным закалённым стеклом, выполненная в круглом форм-факторе.…

Мар 2, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых