Голос, код и железо: ИИ ускоряется сразу по всем фронтам
За один релизный цикл сразу несколько компаний показали, куда всё движется: быстрее, точнее и ближе к реальному времени.
Начнём с Google.
Gemini 3.1 Flash Live — голосовая модель, которая:
— быстрее реагирует, чем предыдущие версии
— лучше понимает темп, интонации и акустику
— эффективно фильтрует шум
Поддерживает 90+ языков в реальном времени, держит контекст дольше и стабильнее работает с инструментами.
Идёт сразу в продукты — Gemini Live и Search Live (который расширяют на 200+ стран).
Теперь про звук.
Mistral Voxtral TTS:
— клонирует голос по <5 секундам аудио
— сохраняет микроинтонации и акценты
— может менять язык, не теряя «личность»
Скорость — 10 секунд аудио за ~1.6 секунды.
Открытая модель (но с некоммерческой лицензией).
Следом — распознавание речи.
Cohere Transcribe:
— модель на 2 млрд параметров (Conformer)
— работает с шумом, акцентами и несколькими голосами
— WER 5.42% — обошла Whisper Large v3
Можно запускать локально или через API.
Теперь железо.
Intel Arc Pro B70 / B65:
— 32 ГБ VRAM
— до 22.9 TFLOPS
— цена от $949 (в 2 раза дешевле аналогов Nvidia)
То есть инференс становится доступнее без топовых бюджетов.
И немного про платформы.
GitHub Copilot меняет политику:
данные пользователей (код, промпты, ответы) могут использоваться для обучения моделей по умолчанию.
Главный сдвиг — всё начинает сходиться:
голос → текст → генерация → железо → инфраструктура.
ИИ становится не отдельной технологией, а полноценной средой.
Вывод: следующий этап — не отдельные модели, а экосистема, где всё работает вместе и в реальном времени.



















