Image

Perplexity выпустила свой первый исследовательский paper — и он про то, как заставить сверхкрупные модели работать на десятках AWS-GPU одновременно

1d5eb063e2e43290e1c0454b5e88a7ed

Обычно это невозможно: сеть AWS (EFA) не поддерживает GPUDirect Async, поэтому GPU на разных машинах не могут обмениваться данными достаточно быстро.

Инженеры нашли обходной путь: они построили новый софт, который передаёт координацию CPU, позволяя GPU всё равно синхронизироваться почти напрямую.

Это делает эффективным инференс моделей на *1 триллион параметров* на обычных AWS-кластерах, а не только на специализированных суперкомпьютерах.

Они подготовили expert-parallel ядра для быстрого MoE-инференса на AWS EFA:

1T MoE работает практически без деградации, а многонодовый режим сопоставим или быстрее однонодового на 671B DeepSeek V3 при средних батчах — и открывает путь к сервингу Kimi K2.

Проблема: EFA не поддерживает GPUDirect Async, а стандартный NVSHMEM-proxy даёт маршрутизацию MoE c задержками выше 1 мс.

Решение: ядра упаковывают токены в единичные RDMA-записи прямо с GPU, а специальный CPU-поток запускает передачу и перекрывает её с вычислениями GEMM.

Итог — EFA внезапно становится рабочим вариантом для массивного MoE-инференса.

Это крепкая инженерия и адекватный баланс точности и памяти для команд, которым нужна переносимость между облаками.

https://research.perplexity.ai/articles/enabling-trillion-parameter-models-on-aws-efa

Источник: research.perplexity.ai

Источник: ai-news.ru

✅ Найденные теги: Perplexity, новости

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Hisense: глобальный лидер в продажах 100-дюймовых и лазерных телевизоров.
Российские ученые разгадали тайну образования магнитной аномалии в Антарктиде
Мужчина в очках устало работает за компьютером ночью в офисе.
Серверный шкаф Qunnect Carina в офисе с чертежами на досках, современный дизайн.
Текст на изображении: "Программисты всё?" на черном фоне.
ideipro logotyp
Диаграмма базы данных для клона Slack с таблицами пользователей, сообщений и каналов.
ideipro logotyp
Человек работает за ноутбуком, презентация платформы GigaChat Enterprise для бизнеса.
Image Not Found
Hisense: глобальный лидер в продажах 100-дюймовых и лазерных телевизоров.

Hisense лидирует в мировых поставках телевизоров в 2025 году по 100-дюймовым телевизорам и выше и лазерным телевизорам

Компания Hisense, ведущий мировой бренд потребительской электроники и бытовой техники, подтвердила свое лидерство на мировом рынке телевизоров с большим экраном. Согласно данным Omdia за весь 2025 год, Hisense занимал первое место в мире в сегменте телевизоров со…

Мар 4, 2026
Звёздное небо с галактиками и туманностями, космос, Вселенная, астрофотография.

Система оповещения обсерватории Рубина отправила 800 000 сигналов в первую ночь наблюдений.

Астрономы будут получать оповещения о небесных явлениях в течение нескольких минут после их обнаружения. Теренс О'Брайен, редактор…

Мар 2, 2026
Женщина с длинными тёмными волосами в синем свете, нейтральный фон.

Расследование в отношении 61-фунтовой машины, которая «пожирает» пластик и выплевывает кирпичи.

Обзор компактного пресса для мягкого пластика Clear Drop — и что будет дальше. Шон Холлистер, старший редактор Публикации этого автора…

Мар 2, 2026
Черный углеродное волокно с текстурой плетения, отражающий свет.

Материал будущего: как работает «бессмертный» композит

Учёные из Университета штата Северная Каролина представили композит нового поколения, способный самостоятельно восстанавливаться после…

Мар 2, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых