Архив рубрики ~Коротко из Telegram~

Линейное внимание без тормозов: Qwen ускорили GDN в 2–3 раза…

Линейное внимание без тормозов: Qwen ускорили GDN в 2–3 раза…
Таблица с результатами модели H200: время работы и сравнение показателей.

Линейное внимание без тормозов: Qwen ускорили GDN в 2–3 раза

Alibaba (команда Qwen) выложила open-source ядра линейного внимания — библиотеку FlashQLA для Gated Delta Network.

Проблема:

— при контексте 256K+ и моделях на сотни миллиардов
— линейное внимание начинает тормозить обучение и инференс

Почему:

— постоянные гонки тензоров между памятью и чипом
— слабая загрузка GPU на малых батчах

Что сделали:

— вместо одного ядра — 2 слитных + препроцессинг
— добавили контекстный параллелизм на одной карте

Ключевая идея:

— в GDN старые токены быстро «затухают»
— значит не нужно считать всё с начала
— достаточно прогрева на 6–8 чанках

Оптимизация:

— варпы делят работу:
— одни гоняют данные
— другие считают матрицы
— задержки скрываются, GPU загружен плотнее

Результаты:

×2–3 ускорение forward
×2 backward
— особенно заметно на длинных промптах и агентах

Ограничения:

— только архитектура SM90 (Hopper)
— под Ampere — мимо
— заточено именно под GDN

Вывод:

это не просто ускорение, а инженерный хак на уровне математики модели.

Когда оптимизация строится на свойствах архитектуры, прирост получается не косметический, а системный.

Оцените материал:

Поделиться
Понравилась статья? Расскажите другим
ВКонтакте
Читайте также
Архив рубрики ~Лента новостей~ Новая аналитика использования и обновленные средства контроля расходов для предприятий | OpenAI Архив рубрики ~Лента новостей~ Улучшение аналитики в сфере здравоохранения в ChatGPT | OpenAI Архив рубрики ~Лента новостей~ Нейросети как интеллектуальная прослойка между людьми Архив рубрики ~Лента новостей~ Использование ИИ правительством США стремительно растёт. И отсутствие прозрачности вызывает тревогу. | Натан Э. Сандерс и Брюс Шнайер Архив рубрики ~Лента новостей~ Почему не взлетели дирижабли? Часть 25: крушение «Гинденбурга» и конец первой эры воздушных кораблей Архив рубрики ~Лента новостей~ Deep Research для бедных поверх Codex Архив рубрики ~Лента новостей~ Airbus превратил вертолет H145 в транспортный беспилотник. Вместо кабины у него грузовой люк Архив рубрики ~Лента новостей~ Встроенные порты NACS, обновление информационно-развлекательной системы для Porsche Taycan 2027 модельного года. Новости робототехники Китайская X-Humanoid показала робота TienKung Omni отличающегося от своих конкурентов… Архив рубрики ~Обо всем~ Передвижной 4K-монитор от Samsung продается со скидкой почти 30% — и его можно использовать как телевизор. Архив рубрики ~Обо всем~ Действительно ли стоит объединять ваши потоковые сервисы в один пакет? Мнение нашего эксперта. Архив рубрики ~Лента новостей~ Обработка разобранного вопроса RAG: стратегия сегментации, уровень модели, активации, аудит. Архив рубрики ~Обо всем~ Radeon RX 9070 GRE нашла первых покупателей: её купило более 10 немецких геймеров Архив рубрики ~Лента новостей~ Использование ИИ для помощи врачам в диагностике редких генетических заболеваний у детей | OpenAI Архив рубрики ~Лента новостей~ Новая аналитика использования и обновленные средства контроля расходов для предприятий | OpenAI Архив рубрики ~Лента новостей~ Улучшение аналитики в сфере здравоохранения в ChatGPT | OpenAI Архив рубрики ~Лента новостей~ Нейросети как интеллектуальная прослойка между людьми Архив рубрики ~Лента новостей~ Использование ИИ правительством США стремительно растёт. И отсутствие прозрачности вызывает тревогу. | Натан Э. Сандерс и Брюс Шнайер Архив рубрики ~Лента новостей~ Почему не взлетели дирижабли? Часть 25: крушение «Гинденбурга» и конец первой эры воздушных кораблей Архив рубрики ~Лента новостей~ Deep Research для бедных поверх Codex Архив рубрики ~Лента новостей~ Airbus превратил вертолет H145 в транспортный беспилотник. Вместо кабины у него грузовой люк Архив рубрики ~Лента новостей~ Встроенные порты NACS, обновление информационно-развлекательной системы для Porsche Taycan 2027 модельного года. Новости робототехники Китайская X-Humanoid показала робота TienKung Omni отличающегося от своих конкурентов… Архив рубрики ~Обо всем~ Передвижной 4K-монитор от Samsung продается со скидкой почти 30% — и его можно использовать как телевизор. Архив рубрики ~Обо всем~ Действительно ли стоит объединять ваши потоковые сервисы в один пакет? Мнение нашего эксперта. Архив рубрики ~Лента новостей~ Обработка разобранного вопроса RAG: стратегия сегментации, уровень модели, активации, аудит. Архив рубрики ~Обо всем~ Radeon RX 9070 GRE нашла первых покупателей: её купило более 10 немецких геймеров Архив рубрики ~Лента новостей~ Использование ИИ для помощи врачам в диагностике редких генетических заболеваний у детей | OpenAI

Оставить комментарий