Линейное внимание без тормозов: Qwen ускорили GDN в 2–3 раза…
Линейное внимание без тормозов: Qwen ускорили GDN в 2–3 раза
Alibaba (команда Qwen) выложила open-source ядра линейного внимания — библиотеку FlashQLA для Gated Delta Network.
Проблема:
— при контексте 256K+ и моделях на сотни миллиардов
— линейное внимание начинает тормозить обучение и инференс
Почему:
— постоянные гонки тензоров между памятью и чипом
— слабая загрузка GPU на малых батчах
Что сделали:
— вместо одного ядра — 2 слитных + препроцессинг
— добавили контекстный параллелизм на одной карте
Ключевая идея:
— в GDN старые токены быстро «затухают»
— значит не нужно считать всё с начала
— достаточно прогрева на 6–8 чанках
Оптимизация:
— варпы делят работу:
— одни гоняют данные
— другие считают матрицы
— задержки скрываются, GPU загружен плотнее
Результаты:
— ×2–3 ускорение forward
— ×2 backward
— особенно заметно на длинных промптах и агентах
Ограничения:
— только архитектура SM90 (Hopper)
— под Ampere — мимо
— заточено именно под GDN
Вывод:
это не просто ускорение, а инженерный хак на уровне математики модели.
Когда оптимизация строится на свойствах архитектуры, прирост получается не косметический, а системный.
Похожие записи
Оцените материал:
Похожие записи
🔬 Как ИИ становится коллегой по лаборатории. Исследование от Anthropic….
22.05.2026
И еще о Fusion — А вот это уже интересно. Пока мы хоронили Fable 5…
15.06.2026
ИИ с паспортом: как робот стал гражданином страны В 2017…
29.04.2026Присоединяйтесь и подпишитесь на рассылку самых свежих новостей по Email
Получайте свежие новости и идеи на почту. Без спама — только самое интересное.
Нажимая «Подписаться», вы соглашаетесь с политикой конфиденциальности.
