Закажи экспресс-аудит своего дела онлайн всего за 199 ₽
и получи рекомендации по улучшению - Жми сюда !

Perplexity выпустила свой первый исследовательский paper — и он про то, как заставить сверхкрупные модели работать на десятках AWS-GPU одновременно

1d5eb063e2e43290e1c0454b5e88a7ed

Обычно это невозможно: сеть AWS (EFA) не поддерживает GPUDirect Async, поэтому GPU на разных машинах не могут обмениваться данными достаточно быстро.

Инженеры нашли обходной путь: они построили новый софт, который передаёт координацию CPU, позволяя GPU всё равно синхронизироваться почти напрямую.

Это делает эффективным инференс моделей на *1 триллион параметров* на обычных AWS-кластерах, а не только на специализированных суперкомпьютерах.

Они подготовили expert-parallel ядра для быстрого MoE-инференса на AWS EFA:

1T MoE работает практически без деградации, а многонодовый режим сопоставим или быстрее однонодового на 671B DeepSeek V3 при средних батчах — и открывает путь к сервингу Kimi K2.

Проблема: EFA не поддерживает GPUDirect Async, а стандартный NVSHMEM-proxy даёт маршрутизацию MoE c задержками выше 1 мс.

Решение: ядра упаковывают токены в единичные RDMA-записи прямо с GPU, а специальный CPU-поток запускает передачу и перекрывает её с вычислениями GEMM.

Итог — EFA внезапно становится рабочим вариантом для массивного MoE-инференса.

Это крепкая инженерия и адекватный баланс точности и памяти для команд, которым нужна переносимость между облаками.

https://research.perplexity.ai/articles/enabling-trillion-parameter-models-on-aws-efa

Источник: research.perplexity.ai

Источник: ai-news.ru

✅ Найденные теги: Perplexity, новости

Нет других записей в этой рубрике.

Новости других рубрик

Архив рубрики ~Лента новостей~: Мадонёнок с огонёнком. Как Чуковский конструирует детскую речь Архив рубрики ~Лента новостей~: Компании, внедрившие агентов искусственного интеллекта, встревожены, обнаружив, что они проваливают невероятно важные задачи Архив рубрики ~Лента новостей~: Петля обучения на AI-коде: почему Хотц и Карпаты на одной неделе сказали противоположное Архив рубрики ~Лента новостей~: Голубая мечта околоайтишника — разбогатеть на ChatGPT-обертке Архив рубрики ~Лента новостей~: Пятая часть американских подростков попросила у чат-ботов совета по поводу психического здоровья. Две трети из них никому об этом не рассказали Архив рубрики ~Лента новостей~: Лоббисты кабельного телевидения предупреждают о хаосе, если Федеральная комиссия по связи (FCC) не ослабит запрет на использование иностранных маршрутизаторов. Архив рубрики ~Лента новостей~: Технологии в оборонной сфере, искусственный интеллект и привлечение инвестиций станут центральной темой конференции StrictlyVC Los Angeles 18 июня. Архив рубрики ~Лента новостей~: Один из самых волнующих вопросов, о нем задумывался почти каждый человек