Image

Microsoft запускает 3 новые модели ИИ, напрямую критикуя OpenAI и Google.

Содержание

Майкл Нуньес

nuneybits Векторное изображение культового логотипа Microsoft Windows на c7e8e82a-c8b6-4bb6-b555-19a4b7abcd08-1

Источник: VentureBeat, создано с помощью Midjourney

В четверг Microsoft представила три новые базовые модели искусственного интеллекта, полностью разработанные собственными силами: современную систему транскрипции речи, движок генерации голоса и усовершенствованный инструмент для создания изображений. Это стало самым конкретным доказательством того, что гигант программного обеспечения с капитализацией в 3 триллиона долларов намерен напрямую конкурировать с OpenAI, Google и другими передовыми лабораториями в разработке моделей, а не только в их распространении.

Три модели — MAI-Transcribe-1, MAI-Voice-1 и MAI-Image-2 — доступны уже сейчас через Microsoft Foundry и новую площадку MAI Playground. Они охватывают три наиболее коммерчески ценных направления в корпоративном ИИ: преобразование речи в текст, генерация реалистичного человеческого голоса и создание изображений. Вместе они представляют собой первый шаг команды Microsoft по созданию суперинтеллекта, которую Сулейман сформировал всего шесть месяцев назад для достижения того, что он называет «самодостаточностью ИИ».

«Я очень рад, что мы выпустили первые модели, которые являются лучшими в мире для транскрипции», — сказал Сулейман в интервью VentureBeat перед публичным анонсом. «Более того, мы можем создать модель, используя вдвое меньше графических процессоров, чем у самых современных конкурентов».

Это объявление сделано в непростой для Microsoft момент. Акции компании только что завершили худший квартал с момента финансового кризиса 2008 года, поскольку инвесторы все чаще требуют доказательств того, что сотни миллиардов долларов, вложенных в инфраструктуру ИИ, окупятся с лихвой. Эти модели — с агрессивной ценовой политикой и позиционированием, призванным снизить себестоимость продукции Microsoft — являются первым ответом Сулеймана на это давление.

Новая модель транскрипции от Microsoft, по утверждению компании, обеспечивает лучшую в своем классе точность на 25 языках.

MAI-Transcribe-1 — это главный релиз. Модель преобразования речи в текст демонстрирует самый низкий средний показатель ошибок распознавания слов (Word Error Rate) в бенчмарке FLEURS — стандартном отраслевом тесте для многоязычных систем — среди 25 наиболее распространенных языков, используемых продуктами Microsoft, со средним показателем 3,8% WER. Согласно бенчмаркам Microsoft, она превосходит Whisper-large-v3 от OpenAI по всем 25 языкам, Gemini 3.1 Flash от Google по 22 из 25, а также Scribe v2 от ElevenLabs и GPT-Transcribe от OpenAI по 15 из 25.

Модель использует текстовый декодер на основе трансформатора с двунаправленным аудиокодером. Она принимает файлы MP3, WAV и FLAC размером до 200 МБ, и, по словам Microsoft, скорость пакетной транскрипции в 2,5 раза выше, чем у существующего решения Microsoft Azure Fast. Диаризация, контекстная коррекция и потоковая передача указаны как «скоро появятся». Microsoft уже тестирует MAI-Transcribe-1 в режиме Voice в Copilot и Microsoft Teams для транскрипции разговоров — эта деталь подчеркивает, как быстро компания намерена заменить сторонние или устаревшие внутренние модели своими собственными.

Наряду с ним, MAI-Voice-1 — это модель преобразования текста в речь от Microsoft, способная генерировать 60 секунд естественного звучания за одну секунду. Модель сохраняет идентичность говорящего в длинном контенте и теперь поддерживает создание пользовательских голосов из нескольких секунд аудио с помощью Microsoft Foundry. Microsoft устанавливает цену в 22 доллара за 1 миллион символов. MAI-Image-2, тем временем, дебютировала в тройке лидеров в рейтинге Arena.ai и теперь обеспечивает как минимум в 2 раза более быстрое время генерации в Foundry и Copilot по сравнению со своим предшественником. Microsoft внедряет ее в Bing и PowerPoint, устанавливая цену в 5 долларов за 1 миллион токенов для ввода текста и 33 доллара за 1 миллион токенов для вывода изображений. WPP, одна из крупнейших в мире рекламных холдинговых компаний, входит в число первых корпоративных партнеров, разрабатывающих приложения с использованием MAI-Image-2 в больших масштабах.

Пересмотр контракта с OpenAI, благодаря которому стали возможны амбициозные планы Microsoft по созданию моделей.

Чтобы понять, почему эти модели важны, необходимо разобраться в тектоническом сдвиге в договорных отношениях, который сделал их возможными. До октября 2025 года Microsoft по условиям контракта не имела права самостоятельно заниматься разработкой искусственного общего интеллекта. Первоначальное соглашение с OpenAI, подписанное в 2019 году, предоставляло Microsoft лицензию на модели OpenAI в обмен на создание необходимой OpenAI облачной инфраструктуры. Но когда OpenAI попыталась расширить свои вычислительные мощности за пределы Microsoft, заключив сделки с SoftBank и другими компаниями, Microsoft пересмотрела условия соглашения. Как объяснил Сулейман в интервью Bloomberg в декабре 2025 года, пересмотренное соглашение означало, что «еще несколько недель назад Microsoft не имела права — по контракту — самостоятельно заниматься разработкой искусственного общего интеллекта или суперинтеллекта». Новые условия позволили Microsoft создавать собственные передовые модели, сохраняя при этом лицензионные права на все, что OpenAI создаст до 2032 года.

В интервью VentureBeat Сулейман описал ситуацию в характерной для него прямолинейной форме. «В сентябре прошлого года мы пересмотрели контракт с OpenAI, и это позволило нам самостоятельно заняться разработкой собственного суперинтеллекта», — сказал он. «С тех пор мы собираем вычислительные ресурсы и команду, а также закупаем необходимые нам данные».

Он поспешил подчеркнуть, что партнерство с OpenAI остается неизменным. «В партнерстве с OpenAI ничего не меняется. Мы будем сотрудничать с ними как минимум до 2032 года, а, надеюсь, и намного дольше», — сказал Сулейман. «Они были для нас феноменальным партнером». Он также подчеркнул, что Microsoft предоставляет доступ к Claude от Anthropic через свой API Foundry, позиционируя компанию как «платформу платформ». Но подтекст очевиден: Microsoft наращивает потенциал для самостоятельной работы. В марте, как впервые сообщило Business Insider, Сулейман написал во внутренней служебной записке, что его цель — «сосредоточить всю свою энергию на наших усилиях в области суперинтеллекта и иметь возможность создавать модели мирового класса для Microsoft в течение следующих 5 лет». CNBC сообщило, что структурные изменения освободили Сулеймана от повседневных обязанностей по продукту Copilot, а бывший руководитель Snap Джейкоб Андреу занял должность исполнительного вице-президента по объединенному потребительскому и коммерческому опыту Copilot.

Как командам, состоящим менее чем из 10 инженеров, удалось создать модели, способные конкурировать с лучшими разработками крупных технологических компаний.

Пожалуй, наиболее поразительной деталью, которой Сулейман поделился с VentureBeat, является то, насколько малы команды, стоящие за этими моделями. «Аудиомодель была создана 10 людьми, и подавляющее большинство улучшений скорости, эффективности и точности обусловлено архитектурой модели и используемыми нами данными», — сказал Сулейман. «Моя философия всегда заключалась в том, что нам нужно меньше людей, но с большей свободой действий. Поэтому мы работаем по крайне плоской структуре». Он добавил: «Наша команда, занимающаяся обработкой изображений, также насчитывает менее 10 человек. Таким образом, все это связано с инновациями в моделях и данных, которые обеспечили самые современные результаты».

Это важно по двум причинам. Во-первых, это опровергает преобладающее в отрасли мнение о том, что разработка передовых технологий ИИ требует тысяч исследователей и миллиардов долларов на оплату труда персонала. Компания Meta, напротив, придерживается стратегии, которую Сулейман в своем интервью Bloomberg описал как «наем большого количества людей, а не создание команды», включая, по сообщениям, компенсационные пакеты в размере от 100 до 200 миллионов долларов для ведущих исследователей. Во-вторых, небольшие команды, добивающиеся передовых результатов, значительно улучшают экономические показатели. Если Microsoft может создать лучшие в своем классе системы транскрипции с помощью 10 инженеров и половины графических процессоров конкурентов, структура маржи ее бизнеса в сфере ИИ будет выглядеть принципиально иначе, чем у компаний, которые тратят огромные средства на достижение аналогичных показателей.

Философия бережливой команды также перекликается с более широкими взглядами Сулеймана на то, как ИИ уже меняет сам процесс его создания. На вопрос VentureBeat о том, как работает его собственная команда, Сулейман описал обстановку, которая больше напоминает биржевой зал стартапа, чем традиционную инженерную организацию Microsoft. «За круглыми столами, не традиционными рабочими столами, сидят группы людей, используя ноутбуки вместо больших экранов», — сказал он. «Они, по сути, занимаются программированием в атмосфере, бок о бок весь день, с утра до вечера, в комнатах по 50 или 60 человек».

Почему концепция «гуманистического ИИ», предложенная Сулейманом, ориентирована исключительно на корпоративных покупателей

Сулейман последовательно выстраивает вокруг усилий Microsoft в области искусственного интеллекта философский бренд, который он называет «гуманистическим ИИ» — термин, который широко использовался в его блоге, посвященном запуску проекта, и который он подробно описал в нашем интервью. «Я думаю, что мотивация гуманистического сверхинтеллекта заключается в создании чего-то, что действительно служит человечеству», — сказал он VentureBeat. «Люди останутся у руля, на вершине пищевой цепи, и они всегда будут действовать в соответствии с человеческими интересами».

Такая формулировка служит нескольким целям. Она отличает Microsoft от более ориентированной на ускорение риторики OpenAI и Meta. Она находит отклик у корпоративных покупателей, которым необходимы гарантии управления, соответствия требованиям и безопасности перед внедрением ИИ в регулируемые отрасли. И она обеспечивает своего рода защиту: если что-то пойдет не так в более широкой экосистеме ИИ, Microsoft сможет сослаться на свою заявленную приверженность человеческому контролю. В своем декабрьском интервью Bloomberg Сулейман пошел еще дальше, назвав сдерживание и согласование «красными линиями» и утверждая, что никто не должен выпускать инструмент сверхинтеллекта, пока не будет «уверен, что его можно контролировать».

Сулейман также подчеркнул происхождение данных как конкурентное преимущество, описав разговор с генеральным директором Сатьей Наделлой о разработке «чистой родословной моделей, где данные чрезвычайно чистые». Он провел неявное сравнение с альтернативами с открытым исходным кодом, отметив, что «многие модели с открытым исходным кодом были обучены на данных, скажем так, ненадлежащим образом. И с этим потенциально связаны проблемы безопасности». Для корпоративных клиентов, оценивающих поставщиков ИИ на фоне множества судебных исков о нарушении авторских прав в отрасли, это важный коммерческий аргумент — если Microsoft может убедительно заявить, что ее обучающие данные были получены через должным образом лицензированные каналы, это снижает юридические и репутационные риски развертывания этих моделей в производстве.

Агрессивная ценовая политика Microsoft оказывает давление на Amazon, Google и экосистему стартапов в области искусственного интеллекта.

Сегодняшний запуск ставит Microsoft одновременно на три конкурентных фронта. MAI-Transcribe-1 напрямую нацелен на задачи транскрипции, в которых модели Whisper от OpenAI доминируют в сообществе открытого исходного кода, при этом Microsoft заявляет о превосходной точности на всех 25 протестированных языках. Результаты FLEURS также показывают, что он превосходит Gemini 3.1 Flash Lite от Google на 22 из 25 языков — прямой вызов, поскольку Google активно продвигает Gemini в своем собственном продуктовом пакете. А способность MAI-Voice-1 клонировать голоса из нескольких секунд аудио и генерировать речь в 60 раз быстрее реального времени ставит его в конкуренцию с ElevenLabs, Resemble AI и растущей экосистемой стартапов в области голосового ИИ, при этом преимущество Microsoft в распространении — любой разработчик Foundry теперь может получить доступ к этим возможностям через тот же API, который они используют для GPT-4 и Claude — выступает мощным защитным барьером.

Сулейман уверенно обозначил свою конкурентную позицию: «Сейчас мы входим в тройку лучших лабораторий, уступая только OpenAI и Gemini», — сказал он VentureBeat. Ценовая стратегия — MAI-Voice-1 по 22 доллара за миллион символов, MAI-Image-2 по 5 долларов за миллион входных токенов — отражает осознанное решение конкурировать по стоимости. «Мы устанавливаем цены таким образом, чтобы они были лучшими среди всех крупных провайдеров. Поэтому они будут самыми дешевыми среди всех крупных провайдеров, таких как Amazon и, очевидно, Google», — сказал Сулейман. «И это очень осознанное решение».

Для Microsoft это имеет стратегический смысл, поскольку позволяет амортизировать затраты на разработку моделей по всей своей огромной базе корпоративных клиентов. Но это также отвечает на вопрос, который инвесторы задают с возрастающей настойчивостью: когда инвестиции в ИИ начнут приносить прибыль? По данным CNBC, акции Microsoft упали примерно на 17% с начала года, что является частью более широкой распродажи акций компаний-разработчиков программного обеспечения. Создавая модели, работающие на вдвое меньшем количестве графических процессоров, чем у конкурентов, Microsoft снижает собственные затраты на инфраструктуру для внутренних продуктов — Teams, Copilot, Bing, PowerPoint — предлагая разработчикам цены, которые ниже, чем у остального рынка. В своей мартовской записке Сулейман написал, что его модели «позволят нам обеспечить эффективность себестоимости, необходимую для обслуживания рабочих нагрузок ИИ в огромных масштабах, требуемых в ближайшие годы». Эти три модели — первое ощутимое воплощение этого обещания.

Сулейман утверждает, что грядёт появление новой, перспективной модели обработки больших языков программирования, и Microsoft планирует стать «полностью независимой» компанией.

Сулейман ясно дал понять, что транскрипция, генерация голоса и изображений — это только начало. На вопрос о том, будет ли Microsoft создавать крупную языковую модель, чтобы напрямую конкурировать с GPT на передовом уровне, он ответил однозначно: «Мы, безусловно, будем предоставлять самые современные модели во всех областях», — сказал он. «Наша миссия — обеспечить, чтобы, если Microsoft когда-либо понадобится, мы смогли предоставить самые современные решения с максимальной эффективностью, по самой низкой цене и при этом оставаться полностью независимыми».

Он описал многолетний план по «созданию кластеров графических процессоров в соответствующем масштабе», отметив, что команда по разработке суперинтеллекта была официально сформирована только в октябре 2025 года. Сулейман говорил с VentureBeat из Майами, где вся команда собиралась на одну из своих регулярных недельных очных сессий. Он рассказал, что Наделла прилетел на встречу, чтобы изложить «дорожную карту всего, чего нам нужно достичь для нашей миссии по самообеспечению ИИ в течение следующих 2, 3, 4 лет, и всю вычислительную дорожную карту, которая это будет включать».

Создание конкурентоспособной модели LLM, безусловно, представляет собой совершенно иной порядок сложности, требований к данным и вычислительных затрат по сравнению с тем, что продемонстрировала Microsoft в четверг. Представленные сегодня модели являются специализированными — они обрабатывают аудио и изображения, а не общие логические рассуждения и генерацию текста, которые лежат в основе таких продуктов, как ChatGPT или основной интеллектуальный код Copilot. У Сулеймана есть организационные полномочия, публичная поддержка Наделлы и свобода действий по контракту. Чего ему пока не хватает, так это опыта работы в Microsoft над решением самых сложных задач в области ИИ.

Но давайте рассмотрим, что у него есть: три модели, лучшие в своем классе или близкие к ним в своих областях, созданные командами, меньшими, чем большинство стартапов на начальной стадии развития, работающие на вдвое меньших по сравнению со стандартными в отрасли графическими процессорами и имеющие цену ниже, чем у всех основных конкурентов в сфере облачных вычислений. Два года назад Сулейман в журнале MIT Technology Review предложил то, что он назвал «современным тестом Тьюринга» — не вопрос о том, может ли ИИ обмануть человека в разговоре, а вопрос о том, может ли он выйти в мир и выполнять реальные экономические задачи с минимальным контролем. В четверг его собственные модели сделали шаг к этой цели. Теперь вопрос в том, сможет ли команда суперинтеллектуалов Microsoft повторить этот трюк в масштабе, который действительно имеет значение, — и смогут ли они сделать это до того, как иссякнет терпение рынка.

Подпишитесь, чтобы получать самые свежие новости!

Подробные аналитические данные для руководителей предприятий в области искусственного интеллекта, данных и безопасности.

VB Daily AI Weekly Еженедельник AGI Еженедельник по безопасности Еженедельник по инфраструктуре данных Мероприятия VB Все они

Отправляя свой адрес электронной почты, вы соглашаетесь с нашими Условиями использования и Политикой конфиденциальности.

Получайте обновления ! Вы подписаны! Наши последние новости скоро поступят на вашу электронную почту.

Источник: venturebeat.com

✅ Найденные теги: Google, Microsoft, OpenAI, ИИ, Модели, новости

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Компания Anthropic отключает возможность использования подписок Claude с OpenClaw и сторонними агентами искусственного интеллекта.
Компания Anthropic отключает возможность использования подписок Claude с OpenClaw и сторонними агентами искусственного интеллекта.
Космический аппарат на фоне Луны в фазе полумесяца в открытом космосе.
ideipro logotyp
Астронавт на Луне с камерой, отражение Земли в шлеме. Космос, исследование.
Астронавт на поверхности Луны, отражение в шлеме, лунная миссия, космическая съемка.
Современный черный игровой компьютерный стол с крючками для наушников и стакана.
Три миски с горохом на столе, узорчатая тарелка и перцы на заднем плане.
Человек в футболке с микрофоном и трофеем на сцене.
Image Not Found
Компания Anthropic отключает возможность использования подписок Claude с OpenClaw и сторонними агентами искусственного интеллекта.

Компания Anthropic отключает возможность использования подписок Claude с OpenClaw и сторонними агентами искусственного интеллекта.

Карл Франзен Источник: VentureBeat, создано с помощью Google Nano Banana Pro 2 Вы являетесь подписчиком тарифных планов Anthropic Claude Pro (20 долларов в месяц) или Max (100-200 долларов в месяц) и используете модели и продукты Claude AI…

Апр 8, 2026
Компания Anthropic отключает возможность использования подписок Claude с OpenClaw и сторонними агентами искусственного интеллекта.

Компания Anthropic отключает возможность использования подписок Claude с OpenClaw и сторонними агентами искусственного интеллекта.

Карл Франзен Источник: VentureBeat, создано с помощью Google Nano Banana Pro 2 Вы являетесь подписчиком тарифных планов Anthropic Claude Pro (20 долларов в месяц) или Max (100-200 долларов в месяц) и используете модели и продукты Claude AI…

Апр 8, 2026
Космический аппарат на фоне Луны в фазе полумесяца в открытом космосе.

Астронавты починили туалет на борту «Ориона». И в ручном режиме совершили маневры вокруг второй ступени ракеты SLS

И в ручном режиме совершили маневры вокруг второй ступени ракеты SLS «Орион» успешно провел маневры по поднятию околоземной орбиты во время первого пилотируемого полета к Луне по программе «Артемида-2». Астронавты подтвердили возможность управления кораблем в ручном режиме и оперативно…

Апр 8, 2026
ideipro logotyp

Тридцать первого марта две тысячи двадцать шестого года десятки беспилотных автомобилей внезапно заблокировали движение в китайском Ухане

Тридцать первого марта две тысячи двадцать шестого года десятки беспилотных автомобилей внезапно заблокировали движение в китайском Ухане. Сотни пассажиров оказались заперты внутри роботакси по причине глобального программного системного сбоя. С научной точки зрения автономный транспорт полностью зависит…

Апр 8, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых