b20ad43eb67cbca8c47c757dc4b54707.jpg

CUDA-L2: ИИ научился писать CUDA-ядра эффективнее инженеров NVIDIA

b20ad43eb67cbca8c47c757dc4b54707

Исследовательская группа DeepReinforce разработала систему полностью автоматического написания GPU-кода для матричного умножения под названием CUDA-L2 (https://arxiv.org/pdf/2512.02551).

Этот код работает на 10–30% быстрее, чем cuBLAS и cuBLASLt, а это, на минуточку, уже оптимизированные библиотеки от самой NVIDIA.

Обычно такие библиотеки создаются вручную людьми, которые используют готовые шаблоны ядер. А автотюнеры лишь подкручивают параметры, например, размер тайлов.

Но DeepReinforce считают, что даже критически важные и глубоко оптимизированные задачи, как HGEMM, могут быть улучшены с помощью LLM, работающей в связке с RL.

В системе CUDA-L2 языковая модель буквально пишет исходный код CUDA с нуля для каждого размера матрицы. Она не просто меняет параметры, она может менять структуру кода, циклы, стратегию тайлинга, паддинг и даже свизл-паттерны. А еще, она сама выбирает стиль программирования — будь то сырой CUDA, CuTe, CUTLASS или inline PTX.

Процесс выглядит так: цикл RL запускает сгенерированные ядра на реальном железе, измеряет скорость и корректность, а затем обновляет LLM. Со временем модель выводит свои собственные правила производительности, вместо того чтобы полагаться на знания, заложенные людьми.

В качестве генератора использовалась модель DeepSeek 671B. Ее дополнительно доучили на смеси массива CUDA-ядер и качественном коде из библиотек PyTorch, ATen, CUTLASS и примеров от NVIDIA.

Что это дает на практике

Для претрейна и файнтюна LLM большая часть времени GPU тратится именно на операции матричного умножения HGEMM. Если ускорить эти ядра на те самые 10–30%, которые обещает CUDA-L2, то весь процесс обучения становится заметно дешевле и быстрее.

Поскольку CUDA-L2 обрабатывает около 1000 реальных размеров матриц, а не пару вручную настроенных, ускорение работает для самых разных архитектур. Это значит, что в тот же бюджет на GPU можно вместить больше токенов обучения, больше прогонов SFT или RLHF и т.д.

Тесты

HGEMM-ядра, созданные CUDA-L2, стабильно быстрее стандартных библиотек.

В так называемом «оффлайн-сценарии» CUDA-L2 работает примерно на 17–22% быстрее, чем `torch.matmul`, cuBLAS и cuBLASLt. Она даже на 11% обгоняет cuBLASLt AutoTuning, который сам по себе уже использует поиск ядра.

А в «серверном», сценарии, который имитирует реальный инференс с паузами между вызовами — разница еще больше: буст в 24–29% по сравнению с `torch.matmul` и cuBLAS.

Простым рисёрчем проект не ограничен, в репозитории на Github (https://github.com/deepreinforce-ai/CUDA-L2) авторы выложили оптимизированные ядра HGEMM A100 для 1000 конфигураций.

В планах: расширение на архитектуры Ada Lovelace, Hopper, Blackwell, поддержка более плотных конфигураций и 32-битный HGEMM.

Arxiv (https://arxiv.org/pdf/2512.02551)

GitHub (https://github.com/deepreinforce-ai/CUDA-L2)

Источник: github.com

Источник: ai-news.ru

✅ Найденные теги: CUDA-L2:, новости

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Кадр из фильма с мужчиной в форме, текст: "Вы ведь включали сегодня [ценз], верно?"
Интерфейс браузера с текстом о Google Veo 3.1 и ссылками на источники.
Wi-Fi передатчик с антенной на фоне поля, радиус действия 1 км.
Скриншот интерфейса Windows с виджетами и обоями в синих тонах.
Интерфейс программы текст-в-речь, библиотека аудио и транскрипция на экране.
ideipro logotyp
Абстрактная иллюстрация с абстрактными фигурами и силуэтом человека в центре.
Роботы-врачи в китайской больнице ИИ, лечение пациентов, футуристическая медицина.
ideipro logotyp
Image Not Found
А что если реальная опасность, исходящая от ИИ, заключается не в дипфейках, а в ежедневных слухах?

А что если реальная опасность, исходящая от ИИ, заключается не в дипфейках, а в ежедневных слухах?

Луис Розенберг, Unanimous AI Создано автором с помощью ChatGPT Большинство людей не осознают той серьезной угрозы, которую ИИ вскоре будет представлять для свободы воли человека . Часто повторяют, что «ИИ — это всего лишь инструмент», и, как…

Мар 5, 2026
Мультяшный мальчик в красной рубашке и голубой шапке, сидит среди других детей.

Ожирение назвали главным фактором риска развития диабета у американских подростков. Повлияли также мужской пол и более молодой возраст

Повлияли также мужской пол и более молодой возраст Когортный анализ данных почти двух тысяч американских подростков в возрасте…

Мар 5, 2026
Молот перед логотипом технологической компании с цветными квадратами.

Microsoft заблокировала слово «Микрослоп» на своём Discord-сервере и ввела ограничения

Изображение, созданное нейросетьюПохоже, Microsoft не очень нравится, когда её инвестиции в искусственный интеллект и активное…

Мар 5, 2026
Четыре символа: золото, стилизованная эмблема, каменное кольцо и змей, кусающий свой хвост.

Есть здесь люди, которые искренне считают, что установив макс, они увеличили суверенитет страны?

«В виртуальных дискуссиях уже давно затрагивают тему мессенджера MAX, представляя его как просто еще одну платформу для коммуникации….

Мар 5, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых