Линейное внимание без тормозов: Qwen ускорили GDN в 2–3 раза…
Линейное внимание без тормозов: Qwen ускорили GDN в 2–3 раза
Alibaba (команда Qwen) выложила open-source ядра линейного внимания — библиотеку FlashQLA для Gated Delta Network.
Проблема:
— при контексте 256K+ и моделях на сотни миллиардов
— линейное внимание начинает тормозить обучение и инференс
Почему:
— постоянные гонки тензоров между памятью и чипом
— слабая загрузка GPU на малых батчах
Что сделали:
— вместо одного ядра — 2 слитных + препроцессинг
— добавили контекстный параллелизм на одной карте
Ключевая идея:
— в GDN старые токены быстро «затухают»
— значит не нужно считать всё с начала
— достаточно прогрева на 6–8 чанках
Оптимизация:
— варпы делят работу:
— одни гоняют данные
— другие считают матрицы
— задержки скрываются, GPU загружен плотнее
Результаты:
— ×2–3 ускорение forward
— ×2 backward
— особенно заметно на длинных промптах и агентах
Ограничения:
— только архитектура SM90 (Hopper)
— под Ampere — мимо
— заточено именно под GDN
Вывод:
это не просто ускорение, а инженерный хак на уровне математики модели.
Когда оптимизация строится на свойствах архитектуры, прирост получается не косметический, а системный.


Добавить комментарий
Для отправки комментария вам необходимо авторизоваться.