Microsoft запускает линейку MAI: сразу три модели под продакшен
Microsoft представила семейство MAI — и это не эксперимент, а готовые решения под реальные задачи.
Сразу три направления: речь, голос и изображения.
Что внутри:
MAI-Transcribe-1
— распознавание речи на 25 языках (есть русский)
— WER 3,86% — лучше Whisper и Gemini в большинстве языков
— поддержка WAV, MP3, FLAC
— цена: $0,36 за час аудио
MAI-Voice-1
— реалистичный синтез речи с эмоциями
— клонирование голоса (с подтверждением)
— скорость: 1 минута аудио за 1 секунду
— пока только английский
— цена: $22 за 1 млн символов
MAI-Image-2
— генерация изображений (до 1024×1024)
— до 50B параметров
— топ-3 на ArenaAI, сильный фотореализм
— цена: $5 за вход / $33 за выход (1 млн токенов)
Все модели доступны через Microsoft Foundry.
Главный момент — ставка на баланс:
качество + стоимость + готовность к продакшену.
























