Линейное внимание без тормозов: Qwen ускорили GDN в 2–3 раза...

Линейное внимание без тормозов: Qwen ускорили GDN в 2–3 раза

Alibaba (команда Qwen) выложила open-source ядра линейного внимания — библиотеку FlashQLA для Gated Delta Network.

Проблема:

— при контексте 256K+ и моделях на сотни миллиардов
— линейное внимание начинает тормозить обучение и инференс

Почему:

— постоянные гонки тензоров между памятью и чипом
— слабая загрузка GPU на малых батчах

Что сделали:

— вместо одного ядра — 2 слитных + препроцессинг
— добавили контекстный параллелизм на одной карте

Ключевая идея:

— в GDN старые токены быстро «затухают»
— значит не нужно считать всё с начала
— достаточно прогрева на 6–8 чанках

Оптимизация:

— варпы делят работу:
— одни гоняют данные
— другие считают матрицы
— задержки скрываются, GPU загружен плотнее

Результаты:

— ×2–3 ускорение forward
— ×2 backward
— особенно заметно на длинных промптах и агентах

Ограничения:

— только архитектура SM90 (Hopper)
— под Ampere — мимо
— заточено именно под GDN

Вывод:

это не просто ускорение, а инженерный хак на уровне математики модели.

Когда оптимизация строится на свойствах архитектуры, прирост получается не косметический, а системный.

✅ Найденные теги: GDN, Qwen, Линейное, Линейное Внимание, новости

Линейное внимание без тормозов: Qwen ускорили GDN в 2–3 раза…