
Обычно это невозможно: сеть AWS (EFA) не поддерживает GPUDirect Async, поэтому GPU на разных машинах не могут обмениваться данными достаточно быстро.
Инженеры нашли обходной путь: они построили новый софт, который передаёт координацию CPU, позволяя GPU всё равно синхронизироваться почти напрямую.
Это делает эффективным инференс моделей на *1 триллион параметров* на обычных AWS-кластерах, а не только на специализированных суперкомпьютерах.
Они подготовили expert-parallel ядра для быстрого MoE-инференса на AWS EFA:
1T MoE работает практически без деградации, а многонодовый режим сопоставим или быстрее однонодового на 671B DeepSeek V3 при средних батчах — и открывает путь к сервингу Kimi K2.
Проблема: EFA не поддерживает GPUDirect Async, а стандартный NVSHMEM-proxy даёт маршрутизацию MoE c задержками выше 1 мс.
Решение: ядра упаковывают токены в единичные RDMA-записи прямо с GPU, а специальный CPU-поток запускает передачу и перекрывает её с вычислениями GEMM.
Итог — EFA внезапно становится рабочим вариантом для массивного MoE-инференса.
Это крепкая инженерия и адекватный баланс точности и памяти для команд, которым нужна переносимость между облаками.
https://research.perplexity.ai/articles/enabling-trillion-parameter-models-on-aws-efa
Источник: research.perplexity.ai
Источник: ai-news.ru

























