Image

Бюджетный Vision Transformer

Понимание того, как работает DeiT посредством дистилляции знаний, и как реализовать это с помощью PyTorch

Делиться

c790b013ee72c0d87000f0c817602dc8

Введение

Ванильный ViT проблематичен. Если вы посмотрите на оригинальную статью ViT [1], вы заметите, что хотя эта модель глубокого обучения доказала свою исключительную эффективность, для ее достижения требуются сотни миллионов помеченных обучающих изображений. Ну, это очень много.

Это требование огромного количества данных, безусловно, является проблемой, и поэтому нам нужно решение для этого. Туврон и др. еще в декабре 2020 года в своей исследовательской работе под названием «Обучение эффективных по данным преобразователей изображений и дистилляция через внимание» [2] выдвинули идею сделать обучение модели ViT намного более дешевым в вычислительном отношении. Авторы придумали идею, в которой вместо обучения модели на основе преобразователя с нуля они использовали знания существующей модели посредством дистилляции. С помощью этого подхода им удалось решить проблему ViT, связанную с нехваткой данных, при этом сохранив высокую точность. Что еще интереснее, эта статья вышла всего через два месяца после оригинальной ViT!

В этой статье я собираюсь обсудить модель, которую авторы назвали DeiT (Data-effective image Transformer), а также то, как реализовать архитектуру с нуля. Поскольку DeiT напрямую выведен из ViT, настоятельно рекомендуется иметь предварительные знания о ViT перед прочтением этой статьи. Вы можете найти мою предыдущую статью об этом в ссылке [3] в конце этого поста.

Источник: towardsdatascience.com

❌ Нет тегов для этой статьи
Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Фото сгенерированных лиц: исследование показывает, что люди не могут отличить настоящие лица от сгенерированных
Нейросети построили капитализм за трое суток: 100 агентов Claude заперли…
Скетч: цифровой осьминог и виртуальный мир внутри компьютера с человечком.
Сцена с жестами пальцами, где один жест символизирует "VPN", а другой "KHP".
‼️Paramount купила Warner Bros. Discovery — сумма сделки составила безумные…
Скриншот репозитория GitHub "Claude Scientific Skills" AI для научных исследований.
Структура эффективного запроса Claude с элементами задачи, контекста и референса.
Эскиз и готовая веб-страница платформы для AI-дизайна в современном темном режиме.
ideipro logotyp
Image Not Found
Звёздное небо с галактиками и туманностями, космос, Вселенная, астрофотография.

Система оповещения обсерватории Рубина отправила 800 000 сигналов в первую ночь наблюдений.

Астрономы будут получать оповещения о небесных явлениях в течение нескольких минут после их обнаружения. Теренс О'Брайен, редактор раздела «Выходные». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной…

Мар 2, 2026
Женщина с длинными тёмными волосами в синем свете, нейтральный фон.

Расследование в отношении 61-фунтовой машины, которая «пожирает» пластик и выплевывает кирпичи.

Обзор компактного пресса для мягкого пластика Clear Drop — и что будет дальше. Шон Холлистер, старший редактор Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего…

Мар 2, 2026
Черный углеродное волокно с текстурой плетения, отражающий свет.

Материал будущего: как работает «бессмертный» композит

Учёные из Университета штата Северная Каролина представили композит нового поколения, способный самостоятельно восстанавливаться после серьёзных повреждений.  Речь идёт о модифицированном армированном волокном полимере (FRP), который не просто сохраняет прочность при малом весе, но и способен «залечивать» внутренние…

Мар 2, 2026
Круглый экран с изображением замка и горы, рядом электронная плата.

Круглый дисплей Waveshare для креативных проектов

Круглый 7-дюймовый сенсорный дисплей от Waveshare создан для разработчиков и дизайнеров, которым нужен нестандартный экран.  Это IPS-панель с разрешением 1 080×1 080 пикселей, поддержкой 10-точечного ёмкостного сенсора, оптической склейкой и защитным закалённым стеклом, выполненная в круглом форм-факторе.…

Мар 2, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых