Линейное внимание без тормозов: Qwen ускорили GDN в 2–3 раза…
Линейное внимание без тормозов: Qwen ускорили GDN в 2–3 раза
Alibaba (команда Qwen) выложила open-source ядра линейного внимания — библиотеку FlashQLA для Gated Delta Network.
Проблема:
— при контексте 256K+ и моделях на сотни миллиардов
— линейное внимание начинает тормозить обучение и инференс
Почему:
— постоянные гонки тензоров между памятью и чипом
— слабая загрузка GPU на малых батчах
Что сделали:
— вместо одного ядра — 2 слитных + препроцессинг
— добавили контекстный параллелизм на одной карте
Ключевая идея:
— в GDN старые токены быстро «затухают»
— значит не нужно считать всё с начала
— достаточно прогрева на 6–8 чанках
Оптимизация:
— варпы делят работу:
— одни гоняют данные
— другие считают матрицы
— задержки скрываются, GPU загружен плотнее
Результаты:
— ×2–3 ускорение forward
— ×2 backward
— особенно заметно на длинных промптах и агентах
Ограничения:
— только архитектура SM90 (Hopper)
— под Ampere — мимо
— заточено именно под GDN
Вывод:
это не просто ускорение, а инженерный хак на уровне математики модели.
Когда оптимизация строится на свойствах архитектуры, прирост получается не косметический, а системный.
Похожие записи
- Мобильный клиент Р7 команда для iOS и Android получил обновление
- По сообщениям, стартап Baseten, занимающийся разработкой решений для искусственного интеллекта, привлек 1,5 миллиарда долларов спустя несколько месяцев после последнего крупного раунда финансирования.
- Новая аналитика использования и обновленные средства контроля расходов для предприятий | OpenAI
Оцените материал:
Похожие записи
Паника отменяется — ChatGPT продолжит отвечать на мед- и юр-вопросы…
04.11.2025
Энергетический голод ИИ: реактивные двигатели становятся генераторами Мир столкнулся с…
06.11.2025У ИИ обнаружили «эмоции», которые влияют на его действия Исследователи…
08.04.2026Присоединяйтесь и подпишитесь на рассылку самых свежих новостей по Email
Получайте свежие новости и идеи на почту. Без спама — только самое интересное.
Нажимая «Подписаться», вы соглашаетесь с политикой конфиденциальности.
