Изображение науки: городские пейзажи, глаз, цифровые здания, разработки технологий.

Сбои в матрице внимания

История артефактов Трансформеров и последние исследования по их устранению.

Делиться

43a2f2ae18b30e12f81834400e5b5fd9

Трансформеры заложили основу для базовых моделей, которые позволяют нам использовать предварительно обученные модели и применять их к различным задачам. Однако в моделях трансформеров встречается распространенный артефакт, который может оказывать негативное влияние на конкретные задачи и сценарии. Непонимание этих недостатков может привести к существенному снижению производительности вашего проекта или его провалу. Например, на странице DINOv2 в GitHub представлены модели, предварительно обученные с регистрами и без них. Таблица с метриками показывает, что регистры, введенные для устранения этого артефакта, не оказывают существенного влияния на модель. И зачем усложнять модель, если это не приводит к повышению точности?

Однако метрики, показанные на странице DINOv2, относятся только к классификации ImageNet, на которую, как известно, эти артефакты не влияют. Если вы используете модель VIT DINOv2 без регистров для обнаружения объектов (как в LOST), ваша производительность, вероятно, будет существенно хуже.

Использование предварительно обученных моделей ViT без понимания того, когда артефакты, соответствующие высоким нормам, могут повлиять на ваш проект, может привести к его провалу.

С момента выявления этих артефактов исследовательское сообщество разработало несколько методов для их устранения. Новейшие решения требуют минимальной или нулевой переподготовки и не вносят дополнительной задержки во время тестирования. Эти явления не уникальны для ViT, но также встречаются в LLM. Фактически, одна из статей NeurIPS 2025, рассмотренная здесь, предлагает общее решение этих артефактов «поглотителя внимания» — оно модифицирует архитектуру трансформера самовнимания. Показано, что эта модифицированная архитектура полезна во многих отношениях и уже внедряется в последнюю модель Qwen, Qwen3-Next.

Данная статья представляет собой исчерпывающее руководство по следующим вопросам:

  1. Регистры трансформатора.
  2. Артефакты, относящиеся к высоким нормативным показателям (или «ловушки внимания»), которые они рассматривают.
  3. Новейшие научно обоснованные решения для уменьшения этих артефактов.

1. Обнаружение артефактов в витаминах с помощью DINOv2

Хотя модели ViT сыграли ключевую роль в становлении эры базовых моделей для компьютерного зрения, они страдают от устойчивой аномалии: появления высоких нормальных пиков¹. Эти артефакты наблюдаются как при обучении с учителем, так и при самообучении, за исключением оригинальной модели DINO. На рисунке 1 это продемонстрировано на базовых моделях ViT, обученных с использованием различных алгоритмов, охватывающих самообучение (DINO/DINOv2, MAE), слабо контролируемое обучение (CLIP) и контролируемое обучение (DeiT-III).

ba1beaff34e076f8afe80387524ded11

Эти артефакты обладают четырьмя ключевыми характеристиками:

  • Высокая норма: L2-норма токенов артефактов может быть в 2–10 раз больше, чем средняя норма токенов, в зависимости от метода обучения.
  • Разреженность: Они составляют небольшую долю от общего числа токенов (приблизительно 2%) и образуют отчетливую моду в распределении (например, рис. 3 и 4 в работе Darcet et al 20241).
  • Локализация пятен: они преимущественно появляются в областях фона с низкой информативностью или в углах изображения.
  • Локализация по слоям: Они появляются преимущественно в средних и поздних слоях ВИТ.

Влияние артефактов, соответствующих высоким нормам

Влияние на точность варьируется в зависимости от задачи. Мы измеряем это влияние, наблюдая, насколько улучшается производительность после применения исправлений, обсуждаемых в последующих разделах. Ниже приведено краткое изложение результатов работы Цзяна и др. (2025)2:

Влияние Задача Результат смягчения последствий
😐 Классификация ImageNet Значительного влияния не обнаружено.
😃 Неконтролируемое обнаружение объектов (LOST) Значительное улучшение (20%) по показателю DINOv2 ViT-L/14
😊 Сегментация без предварительного обучения +5 млн IOU для OpenCLIP ViT-B/14, но не для DINOv2.
😊 Оценка глубины Незначительное улучшение при использовании регистров времени тестирования (более низкая среднеквадратичная ошибка).

Причина: две гипотезы

Почему эти модели генерируют артефакты, соответствующие высоким нормам? Существуют две основные, непротиворечивые гипотезы:

  1. Глобальная обработка: Крупные модели учатся выявлять избыточные токены и перепрофилировать их в качестве «слотов хранения» для обработки и извлечения глобальной информации.
  2. Механистическая гипотеза: артефакты являются побочным продуктом функции Softmax, которая заставляет весовые коэффициенты внимания суммироваться до 1.

В механизме внимания SoftMax сумма весов для данного запроса должна равняться 1:

$$sum_{j} text{Внимание}(Q, K_j) = 1$$

Даже когда токен запроса ( i ) не имеет значимой связи ни с одним ключевым токеном ( j ), операция SoftMax заставляет его распределять свою «массу внимания». Эта масса часто направляется в определенные фоновые токены с низким содержанием информации, которые затем становятся ловушками для высокоинформативных токенов.

Они рассчитываются отдельно для каждого элемента внимания. Чтобы действительно понять проблему «приемника внимания», мы пошагово разберем код механизма внимания. Диаграммы самовнимания также воспроизведены на рисунке 2 для справки.

17b516f0235636c18ae87d2cdf477497

Пример кода можно посмотреть в репозитории DeiT на GitHub исследовательского подразделения Facebook:

class Attention(nn.Module): # … def forward(self, x): # B: размер пакета # N: длина последовательности (# токенов) # C: размер встраивания * num_heads B, N, C = x.shape # self.qkv — это линейный слой со смещением, которое утраивает размер # тензора — вычисление Q=XW_Q, K=XW_K, V=XW_V в одном уравнении qkv = self.qkv(x).reshape( B, N, 3, # включает Q, K и V — это измерение переставляется в # индекс 0 self.num_heads, C // self.num_heads).permute(2, 0, 3, 1, 4) q, k, v = qkv[0], qkv[1], qkv[2] q = q * self.scale # для численной стабильности attn = (q @ k.transpose(-2, -1)) # attn: [B x N x N] attn = attn.softmax(dim=-1) # Создание артефакта attn = self.attn_drop(attn) # Дополнительная аугментация обучения с использованием Dropout # Следующая строка выполняет умножение матриц И конкатенацию между заголовками x = (attn @ v).transpose(1, 2).reshape(B, N, C) x = self.proj(x) # еще один линейный слой x = self.proj_drop(x) # Дополнительная аугментация обучения с использованием Dropout return x

В ViT, где отсутствуют явные «глобальные» токены (кроме токена [CLS]), модель перепрофилирует фоновые фрагменты в качестве «поглотителей внимания» или «мусорных корзин». Эти токены агрегируют глобальную информацию, их нормальная величина увеличивается, а их первоначальное локальное семантическое значение теряется.

2. Решение с использованием регистров: Для преобразования изображений необходимы регистры (2024)

c17eccdf48b2210ed888c5a2cff7c4ac

Команда разработчиков DINOv2 обнаружила эти артефакты, связанные с высокой нормой, и предложила добавить «регистровые» токены (Darcet et al. 20241). Эти токены представляют собой обучаемые токены, подобные токену [cls], но без позиционных вложений, однако соответствующие выходные токены никогда не используются. По сути, это просто дополнительные токены, которые не используются напрямую для обучения. Эти регистровые токены обучаются так же, как и токен [CLS], и не имеют позиционных вложений. Главный недостаток этого метода заключается в необходимости переобучения модели. Это ограничение подтолкнуло к поиску постфактумных решений, которые могли бы исправить существующие модели.

3. Решение для подавления шума: Denoising Vision Transformers (2024)

Ян и др. (2024)4 предложили шумоподавляющие видеотрансформаторы (DVT) для постобработки выходных токенов. Хотя DVT синергичен с регистрами, он создает значительное узкое место, добавляя примерно 100 секунд задержки на каждое изображение размером 518×518 пикселей, что делает его непрактичным для приложений реального времени.

Вклад:

  1. Тромбоз глубоких вен улучшает выполнение различных задач, и авторы показали, что тромбоз глубоких вен оказывает синергетический эффект при добавлении регистров.
  2. Данная статья расширяет наше понимание того, что вклад позиционных вложений является одной из основных причин возникновения артефактов, связанных с высокими нормами.

Однако:

  1. Это приводит к значительной задержке на каждое изображение (около 100 секунд для изображений размером 518×518 пикселей).

4. Решение для дистилляции: регистры самоперегонки (2025)

Подход, предложенный Ченом и др. (20255), использует парадигму «учитель-ученик» для обучения небольшого подмножества весов и регистровых токенов. Артефакты, связанные с высокой нормой, удаляются из сигнала учителя путем применения аугментации данных с помощью случайных смещений и отражений к изображениям, что позволяет усреднить эти артефакты. Модель учителя остается неизменной, как и исходный ViT. Модель ученика также инициализируется из того же ViT, однако добавляются дополнительные обучаемые регистровые токены, и небольшое подмножество весов дорабатывается.

Вклад:

  1. Вычислительные ресурсы на порядки меньше, чем при обучении с нуля с использованием регистров.
  2. Отсутствие дополнительной задержки во время тестирования.

5. Механистическое решение: Регистры времени тестирования (2025)

Цзян и др. (2025)2 представили метод «хирургического вмешательства» в обученные модели для добавления регистров без переобучения. Они обнаружили, что артефакты генерируются разреженным набором специфических «регистровых нейронов» внутри слоев MLP (примерно 0,02% от всех нейронов). Перенаправляя значения из этих внутренних нейронов MLP на новые регистровые токены, они достигли производительности полностью обученных регистровых моделей с нулевыми затратами на переобучение.

Они обнаруживают следующие свойства нейронов (или «регистровых нейронов»), вызывающих артефакты:

  • Разреженность: Примерно 0,02% нейронов отвечают за подавляющую часть энергии артефактов.
  • Причинно-следственная связь: положение выбросов можно изменить, модифицировав паттерн активации нейронов регистра.

Они показывают, что эти нейроны-регистраторы агрегируют глобальную информацию, используя линейные зонды: то есть, они проверяют, могут ли они использовать нейроны-регистраторы для классификации на ImageNet и CIFAR-10/100. Последний выходной сигнал регистраторов игнорируется, но в сети есть токены регистров, где сеть может использовать эту глобальную информацию. Авторы проводят эксперименты, чтобы показать, что обнуление нейронов-регистраторов существенно снижает производительность сети с 70,2% до 55,6%, что предполагает, что сети используют артефакты для хранения информации, а не являются просто артефактом SoftMax.

Взаимосвязь между артефактами ViT High-Norm и эффектами привлечения внимания LLM.

Феномен, аналогичный артефактам высокой нормы ViT — «ловушкам внимания» — был обнаружен в LLM в статье StreamingLLM (Xiao et al., ICLR 20246). Расширяя LLM для использования на потоковых последовательностях бесконечной длины, они заметили, что точность значительно снижается, когда начальный токен перестает помещаться в скользящее окно. Эти начальные токены, как они обнаружили, имеют тенденцию накапливать более половины оценки внимания. Снижение точности восстанавливалось, если они сохраняли значения ( K ) и ( V ) от начальных 1-4 токенов, перемещая окно по оставшимся токенам. Они предполагают, что начальные токены используются в качестве «ловушек внимания» из-за последовательной природы авторегрессивного языкового моделирования: они видны всем токенам, в то время как более поздние токены видны только последующим токенам. Это контрастирует с ViT, где каждый токен фрагмента виден каждому другому токену фрагмента. В случае с программами LLM проблема отвлечения внимания, как правило, не рассматривалась, в отличие от программ ViT.

Считалось, что «ловушки внимания» в LLM служат якорями, не агрегируя глобальную информацию — в отличие от ViT; однако даже более недавнее исследование Кейпо-де-Льяно и его коллег (Queipo-de-Llano et al 20257), «Ловушки внимания и долины сжатия», показывает, что эти «ловушки внимания» действительно содержат глобальную информацию. Это говорит о том, что общее решение, обсуждаемое в следующем разделе, может также применяться к ViT, хотя на момент написания этой статьи оно на них не проверялось.

7. Удаление артефактов с помощью сигмоидального управления: управляемое внимание (2025)

b9933f867889a749db563c349df7f28c

Одним из способов решения проблем, связанных с SoftMax, может быть его замена на сигмоидную функцию. Гу и др. 8 в 2025 году показали, что замена SoftMax на (ненормализованную) сигмоидную функцию действительно может устранить эффект «поглотителя внимания» на первом токене, как показано на рисунке 4. Хотя предварительные результаты показывают некоторое потенциальное улучшение функции потерь при валидации, остается неясным, какое влияние это окажет на производительность LLM в дальнейшем, и отсутствуют надежные эксперименты, которые будут представлены в нашей следующей статье.

cb09e47dcd85e5f3fefac72912ab3d8b

В своей статье, представленной на конференции NeurIPS 2025, Цю и др. сделали нечто иное: они оставили механизм внимания SoftMax без изменений, но затем добавили механизм управления после объединения токенов из всех голов, как показано на рисунке 5. Они обнаружили, что добавление механизма управления устраняет артефакты, связанные с высокой нормой, хотя механизм внимания SoftMax все еще создавал бы такие артефакты до добавления механизма управления внутри стандартного механизма внимания с масштабированным скалярным произведением (SDPA). Преимущества механизма внимания с управлением выходят за рамки устранения артефакта, связанного с механизмом внимания, и предлагают:

  1. Улучшена стабильность тренировок
  2. Устранение резких скачков потерь в процессе тренировок
  3. Поддержка более высоких скоростей обучения и размеров пакетов.

В своей новой модели Qwen3-Next они используют механизм Gated Attention, хотя и заменяют часть механизма самовнимания на Gated DeltaNet. Это может быть признаком того, что мы отходим от отдельных элегантных решений, таких как повторяющиеся модули самовнимания, и всё больше склоняемся к набору ухищрений или эвристик, обеспечивающих наилучшую производительность. Во многом это похоже на работу мозга с его широким разнообразием типов нейронов, нейромедиаторов и нейрорецепторов. Более масштабные изменения архитектуры могут нарушить равновесие прогресса и потребовать повторной настройки набора эвристик.

8. Заключение

С тех пор, как в далеком 2024 году были обнаружены артефакты высокой нормы в ViT и «ловушки внимания» в LLM, исследовательское сообщество нашло множество решений и добилось значительного прогресса в понимании этих артефактов. Артефакты оказались более похожими, чем предполагалось изначально. В обоих случаях SoftMax приводит к существенному увеличению внимания к некоторым токенам, которые используются (неявно или явно) в качестве регистров, хранящих глобальную информацию. Удаление этих регистров может ухудшить производительность после их изучения. Регистры времени тестирования перемещают артефакты высокой нормы (или неявные регистры) в явные регистры, позволяя очистить токены исправлений от артефактов. Вы также можете предотвратить формирование регистров, заменив SoftMax сигмоидной функцией или используя сигмоидную функцию в качестве управляющей функции после SoftMax (хотя последний вариант допускает артефакты высокой нормы внутри SDPA, но они удаляются до того, как образуются «токены»).

Во многих случаях эти артефакты не вызывают никаких проблем, например, в глобальных задачах, таких как классификация для ViT и большинство задач LLM. Они негативно влияют на задачи с плотными массивами ViT, особенно когда один или несколько токенов могут оказывать чрезмерное влияние, например, при обнаружении объектов. Исправления, по крайней мере, не ухудшают производительность, хотя исправления для LLM, такие как сигмоидное внимание и вентильное внимание, не получили такого широкого распространения, и — в частности, сигмоидное внимание — может быть сложнее в обучении. Использование артефакта — копирование значений ключ-значение исходных токенов — представляется на данный момент лучшим зрелым решением для потоковых LLM6.

Сравнение стратегий смягчения последствий

Наилучшая стратегия смягчения последствий зависит от того, есть ли у вас уже обученная модель или вы планируете обучать ее с нуля.

Метод Стоимость обучения Механизм Задержка Применяется к
Обученные регистры1 Высокий (Полный) Добавить изученные токены Никто Витамины
Шумоподавление ViTs4 Середина Разложение сигнала Очень высокий Витамины
Самодельный дистиллят5 Низкий (тонкая настройка) Дистилляция Никто Витамины
Регистры времени тестирования2 Ноль Сдвиг нейронов Никто Витамины
Потоковое обучение LLM6 Ноль Сохранение кэша KV Никто Магистратура по праву
Сигмоидная или Элу+1 Внимание8 Высокий (Полный) Заменить SoftMax Никто Магистратура по праву
Внимание, ограниченное доступом9 Высокий (Полный) Добавить сигмоидную фильтрацию Минимальный Магистратура по праву

Библиография

  1. Дарсе, Т. и др. «Трансформаторам машинного зрения нужны регистры». (2024).
  2. Цзян Н. и др. «Трансформаторам машинного зрения не нужны обученные регистры». (2025).
  3. Васвани, А. и др. «Внимания достаточно». (2017).
  4. Ян и др. «Трансформаторы для подавления шума в видео». (2024).
  5. Чен, Ю. и др. «Трансформаторы зрения с самодистиллированными регистрами». NeurIPS (2025).
  6. Сяо и др. «Эффективные потоковые языковые модели с механизмами внимания». ICLR (2024).
  7. Кейпо-де-Льяно и др. «Поглощение внимания и долины сжатия». (2025).
  8. Гу и др. «Когда в языковых моделях возникает эффект «поглотителя внимания»: эмпирический взгляд». ICLR (2025).
  9. Цю, З. и др. «Управляемое внимание для больших языковых моделей». NeurIPS (2025).

Источник: towardsdatascience.com

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.
dummy-img
Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.
Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.
dummy-img
dummy-img
Взаимодействие человека и машины погружается под воду.
Взаимодействие человека и машины погружается под воду.
Дифференциально приватное машинное обучение в масштабе с использованием JAX-Privacy
Image Not Found
Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.

Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.

Вкратце Опубликовано: Изображение предоставлено: Thos Robinson/Getty Images для The New York Times (откроется в новом окне) Джули Борт Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.…

Апр 21, 2026
dummy-img

Как почистить виниловые пластинки (2026): пылесос, ультразвук, чистящий раствор, щетка.

Эти щелчки и треск недопустимы. Приведите свою музыку в порядок с помощью этого удобного руководства. Источник: www.wired.com

Апр 21, 2026
Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Это сегодняшний выпуск The Download, нашей ежедневной новостной рассылки, которая предоставляет вам ежедневную порцию событий в мире технологий. Кибермошенники обходят системы безопасности банков с помощью незаконных инструментов, продаваемых в Telegram. В центре по отмыванию денег в Камбодже…

Апр 21, 2026
Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Это сегодняшний выпуск The Download, нашей ежедневной новостной рассылки, которая предоставляет вам ежедневную порцию событий в мире технологий. Кибермошенники обходят системы безопасности банков с помощью незаконных инструментов, продаваемых в Telegram. В центре по отмыванию денег в Камбодже…

Апр 21, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых