Закажи экспресс-аудит своего дела онлайн всего за 199 ₽
и получи рекомендации по улучшению - Жми сюда !

Компания Cerebras утверждает, что её чипы обрабатывают модель искусственного интеллекта с триллионом параметров почти в 7 раз быстрее, чем облачные вычисления на основе графических процессоров.

Майкл Нуньес

Nuneybits Векторная графика: кобальтовые чипы, возвышающиеся над серверами, выжженные e4e68375-d5c6-4559-87a7-d92ffb2bf67a-1

Источник: VentureBeat, создано с помощью Midjourney

Менее чем через неделю после завершения крупнейшего технологического IPO 2026 года, компания Cerebras Systems предпринимает самую агрессивную попытку завоевать доминирование на быстрорастущем рынке вывода данных с использованием ИИ. В понедельник производитель микросхем из Саннивейла объявил о запуске Kimi K2.6 — модели с триллионом параметров и открытыми весами, разработанной пекинской компанией Moonshot AI, — для корпоративных клиентов со скоростью почти 1000 токенов в секунду, что является показателем, которого пока не удалось достичь ни одному поставщику решений на базе графических процессоров.

Результат, независимо подтвержденный компанией Artificial Analysis, показал скорость обработки 981 выходного токена в секунду, что делает Cerebras в 6,7 раза быстрее, чем следующий по скорости облачный провайдер на базе GPU, и в 23 раза быстрее, чем медианное значение. Для стандартного запроса на программирование с участием агента, включающего 10 000 входных токенов, Cerebras выдал полный ответ — включая обработку запроса, логическое обоснование и 500 выходных токенов — за 5,6 секунды, по сравнению со 163,7 секундами на официальной конечной точке Kimi. Это 29-кратное улучшение времени получения окончательного ответа.

«Мы хотим предельно ясно показать, что можем создавать самые большие модели», — заявил Джеймс Ванг, директор по маркетингу продукции Cerebras, в эксклюзивном интервью VentureBeat перед анонсом. «В данном случае это Kimi K2.6 — модель MoE с триллионом параметров на архитектуре масштаба кремниевой пластины, — и она работает с той же невероятной скоростью, которой мы славимся».

Это объявление знаменует собой важный поворотный момент для Cerebras, которая долгое время боролась с представлением о том, что ее нетрадиционные микросхемы на кремниевых пластинах, несмотря на невероятную скорость, могут обрабатывать только модели малого и среднего размера. Kimi K2.6 — первая модель с триллионом параметров, запущенная компанией в производство. А с недавно достигнутой рыночной капитализацией в 95 миллиардов долларов и 5,55 миллиардами долларов, полученными в результате IPO, Cerebras сигнализирует Уолл-стрит о своем намерении конкурировать не только на переднем крае скорости, но и на переднем крае масштабирования моделей.

Cerebras - Скорость вывода (6 мая - 26)

При скорости обработки 981 выходного токена в секунду Cerebras выдавал ответы Kimi K2.6 почти в семь раз быстрее, чем следующий за ним поставщик, и более чем в 65 раз быстрее, чем самый медленный. (Источник: Artificial Analysis)

Почему компания Cerebras выбрала модель китайского производства в качестве своего флагмана с триллионом параметров?

Выбор Kimi K2.6 отражает как техническое достижение, так и коммерческий расчет. Выпущенная 20 апреля компанией Moonshot AI — базирующейся в Пекине компанией, основанной в 2023 году выпускниками Университета Цинхуа и получившей прозвище одной из китайских компаний-«тигров ИИ» — K2.6 представляет собой модель Mixture-of-Experts с триллионом параметров, которая быстро зарекомендовала себя как наиболее эффективная модель с открытыми весами, доступная для задач программирования и агентного управления. Модель лидирует в SWE-Bench Pro с результатом 58,6, превосходя Claude Opus 4.6 и сравнявшись с GPT-5.4, а также демонстрирует лидирующие результаты в таких тестах агентного управления, как Humanity's Last Exam и DeepSearchQA. Ее архитектура использует 32 миллиарда активированных параметров на токен из общего числа 1 триллиона, с 384 экспертами, из которых 8 выбираются, а 1 используется совместно на каждом прямом проходе, работая в контекстном окне размером 256 000 токенов.

На практике K2.6 — одна из первых моделей с открытым исходным кодом, которую предприятия могут с успехом использовать в качестве прямой замены дорогостоящим, ограниченным по пропускной способности API с закрытым исходным кодом от Anthropic и OpenAI, особенно для задач программирования и работы с агентами, которые стали наиболее ценным применением больших языковых моделей. В версии 2.6 возможности K2.6 расширены от проектирования интерфейса до полнофункциональных рабочих процессов, включая аутентификацию, операции с базами данных и выполнение агентов с длительным горизонтом ожидания.

Ван прямо сказал о том, что движет интересом со стороны предприятий. «Во-первых, они очень заинтересованы в том, чтобы найти альтернативу Anthropic», — сказал он VentureBeat. «Модели Anthropic великолепны. Я ими пользуюсь. Уверен, вы тоже. Но они довольно дорогие, и у них постоянно заканчивается пропускная способность». Он рассказал о личном опыте, когда приложение, работающее через API Anthropic, вышло из строя в выходные из-за нехватки ресурсов — история, которая, по его словам, очень близка корпоративным покупателям.

Однако стоит отметить геополитический аспект этой договоренности. Kimi K2.6 — это разработанная в Китае модель, предоставляемая американским производителем микросхем корпоративным клиентам в США. Компания Moonshot AI работает из Пекина, и внедрение K2.6 на Западе происходит в период повышенного внимания к китайским компаниям, занимающимся ИИ, на американском рынке. Корпоративным покупателям со строгими требованиями к соблюдению нормативных требований — особенно в сфере финансовых услуг, здравоохранения и обороны — необходимо будет оценить этот аспект наряду с техническими возможностями модели.

Как микросхемы на кремниевых пластинах решают проблему триллиона параметров скорости, с которой не справляются графические процессоры.

Чтобы понять, почему Cerebras может достигать таких скоростей, необходимо понять, что принципиально отличает её оборудование от всего остального на рынке. Большинство современных систем вывода ИИ работают на кластерах графических процессоров Nvidia — обычно организованных в стойки по 72 графических процессора, что Nvidia называет конфигурацией NVL72. В таких конфигурациях параметры модели распределяются по множеству дискретных чипов, соединенных высокоскоростной сетевой инфраструктурой. Данные должны постоянно передаваться между чипами, и пропускная способность межсоединений между графическими процессорами становится узким местом, особенно для больших моделей с сотнями миллиардов или триллионами параметров.

Cerebras использует принципиально иной подход. Ее Wafer-Scale Engine 3 представляет собой единый чип размером с целую кремниевую пластину — примерно размером с обеденную тарелку — содержащий 44 гигабайта встроенной SRAM. В отличие от высокоскоростной памяти, используемой в графических процессорах, SRAM располагается непосредственно на кристалле процессора, обеспечивая значительно меньшую задержку и более высокую пропускную способность для доступа к данным. Для Kimi K2.6 Cerebras хранит веса модели в исходной 4-битной точности, выполняя вычисления с 16-битной плавающей запятой. Веса распределены по нескольким пластинам в кластере из примерно 20 систем CS-3, а активации передаются между ними потоком. Критически важно, что все эксперты для данного слоя MoE размещены на одной пластине, что означает, что связь «все со всеми», необходимая для маршрутизации экспертов, происходит на скорости SRAM. Согласно техническому описанию Cerebras, сетевая матрица на кремниевой пластине обеспечивает пропускную способность более чем в 200 раз превышающую пропускную способность NVLink на NVL72.

Ван объяснил архитектуру, используя аналогию. «Наши отдельные блоки намного больше и обладают гораздо большей производительностью — они занимают порядка 20 стоек, в отличие от 72 графических процессоров», — сказал он. Каждый слой в трансформаторе может, по сути, одновременно обслуживать отдельного пользователя. «Они как очередь, как вы стоите в очереди за бубликами или чем-то подобным — каждый занимает свою часть оборудования. Но поскольку они перемещаются так быстро, фактическое количество токенов в секунду для одного пользователя остается таким же, как и раньше». В сочетании с пользовательскими ядрами и спекулятивным декодированием это позволяет Cerebras обслуживать модель MoE с триллионом параметров со скоростью, близкой к 1000 токенов в секунду — скорость, которую компания называет мировым рекордом, достижимым только с помощью оборудования масштаба кремниевой пластины.

Cerebras - Время отклика от начала до конца (6-26 мая)

Cerebras обработал запрос на 500 токенов от Kimi K2.6 за 5,6 секунды — более чем в шесть раз быстрее, чем у ближайшего конкурента, Clarifai, и примерно в 57 раз быстрее, чем у самого медленного из протестированных поставщиков. (Источник: Artificial Analysis)

Компании из списка Fortune 500 уже тестируют алгоритм Cerebras с триллионом параметров в реальных условиях.

Компания Cerebras не открывает K2.6 для широкой публики. Вместо этого она позиционирует его как решение, ориентированное в первую очередь на корпоративный сектор, и в настоящее время компании из списка Fortune 500, работающие в сфере программного обеспечения, финансовых услуг и здравоохранения, проводят облачные испытания своих производственных нагрузок на этой платформе. «Это компании, о которых вы наверняка слышали», — сказал Ван, хотя и отказался назвать конкретных клиентов из-за соглашений о конфиденциальности.

Ориентация на корпоративных клиентов — это целенаправленный подход. Компания Cerebras исторически отдавала приоритет своим крупнейшим клиентам, а не потребительскому API, отчасти из-за ограничений аппаратных мощностей. «Все испытывают нехватку мощностей. Мы отдаем приоритет корпоративным клиентам, поэтому не отображаем это на потребительском шлюзе или в API, где трафик очень непредсказуем, и один пользователь может фактически захватить весь кластер», — объяснил Ван. Обслуживание K2.6 также ограничивает возможности компании одновременно предлагать другие крупные модели. «Мы не можем одновременно предлагать шесть других моделей», — признал он. «Это просто взаимное ограничение реальности».

Что касается ценообразования, Ван отметил, что, хотя для корпоративного развертывания публичные цены не указаны, затраты компании в целом конкурентоспособны по сравнению с поставщиками решений на базе графических процессоров. «По всем моделям, которые мы предлагали, цены очень сопоставимы — возможно, находятся в среднем, скорее в верхнем диапазоне цен на графические процессоры», — сказал он. «Это не значит, что из-за высокой скорости работы они стоят во много раз дороже». Однако он провел черту в нижнем сегменте рынка: если вы готовы запускать K2.6 со скоростью 20 токенов в секунду на недорогой инфраструктуре графических процессоров, Cerebras не будет пытаться конкурировать по цене. «Мы — автопроизводитель на рынке пикапов. Мы не работаем на этом рынке», — сказал Ван. Для задач, чувствительных к скорости, — особенно для агентного программирования, где разработчики ждут в реальном времени, пока модель сгенерирует и внедрит код, — ценностное предложение очевидно: сопоставимая стоимость за токен, но на порядок более быстрая доставка.

Конкурентная угроза со стороны приобретения компанией Nvidia компании Groq за 20 миллиардов долларов становится всё более серьёзной.

Объявление компании Cerebras появилось в переломный момент для индустрии чипов для ИИ, когда рынок вывода результатов быстро обгоняет рынок обучения как наиболее коммерчески важную вычислительную нагрузку. По мере распространения агентов ИИ в корпоративном программном обеспечении скорость вывода результатов напрямую определяет полезность этих агентов на практике — и, соответственно, конкурентное давление усиливается.

Самым значительным конкурентным событием последних месяцев стало приобретение компанией Nvidia компании Groq за 20 миллиардов долларов, сделка, которая предоставила гиганту в сфере графических процессоров доступ к собственной технологии вывода данных, построенной на основе специализированных блоков обработки естественного языка. Ван прямо упомянул эту сделку. «Я думаю, что Nvidia сейчас понимает, что быстрый вывод данных — это чрезвычайно важный рынок», — сказал он VentureBeat. «Вот почему они готовы потратить 20 миллиардов долларов на приобретение такой компании».

Однако Ван выразил уверенность в том, что архитектурные преимущества Cerebras долговечны. И Nvidia, и Cerebras работают примерно с ежегодным циклом обновления оборудования. «Мы периодически обновляем наше оборудование. Скоро вы услышите от нас новости об этом», — сказал Ван, намекая на предстоящее объявление об обновлении оборудования, но не вдаваясь в подробности. Что касается программного обеспечения, Ван указал на опыт компании в быстрой адаптации к быстро развивающейся экосистеме моделей с открытыми весами. «Мы начали с Llama, поддерживали все модели Qwen, а затем, когда разработчики сказали нам, что им нужна GLM, мы запустили GLM. А теперь они говорят нам, что Kimi — лучшая модель, поэтому мы предоставляем им Kimi», — сказал он. «В то же время мы также поддерживали лучшие компании в работе с их закрытыми моделями — OpenAI, Cognition, Mistral».

Упоминание OpenAI подчеркивает одно из самых необычных деловых отношений в индустрии ИИ. В начале 2026 года OpenAI и Cerebras заключили сделку, стоимость которой, по сообщениям, превышает 20 миллиардов долларов, на предоставление вычислительных мощностей и сопутствующих услуг. Ван подтвердил, что Cerebras обслуживает «внутренние модели кодирования OpenAI, которые появятся в ближайшее время», но отказался раскрыть подробности, поскольку ни одна из сторон публично не представила детали технического соглашения.

Подробности плана Cerebras по внедрению самых интеллектуальных моделей искусственного интеллекта быстрее, чем кто-либо другой.

Ван представил развертывание K2.6 как ступеньку, а не конечную цель. Cerebras начала предоставлять данные для вывода в конце 2024 года с относительно небольшими моделями и потратила более года на масштабирование с 70 миллиардов параметров до более чем 1 триллиона. «Мы не смогли бы запустить это в ноябре 2024 года, — сказал он. — Но теперь мы достигли цели».

Следующая задача компании — перейти от предоставления лучших моделей с открытым исходным кодом к предоставлению лучших моделей с открытым исходным кодом в целом, включая модели с закрытым исходным кодом от таких компаний, как Anthropic и OpenAI, которые занимают абсолютное первое место в рейтингах интеллектуальных систем. «Это первая модель с открытым исходным кодом, для которой у нас теперь есть четкие доказательства», — сказал Ван. «Я думаю, что в течение года вы увидите, как мы будем предоставлять действительно передовые модели, передовые модели с той скоростью, которой мы славимся. И вы должны нас за это хвалить».

На вопрос о том, не будет ли текущий темп внедрения превзойдён темпами совершенствования аппаратного обеспечения Nvidia и других компаний, Ван ответил невозмутимо. «У Nvidia очень чёткая дорожная карта. Они публикуют её каждый год на GTC. У них примерно годовой цикл выпуска продукции, и у нас тоже. Скоро вы услышите от нас новости об этом», — сказал он, намекая на новое оборудование, но не вдаваясь в подробности.

Он также затронул вопрос зависимости от одного поставщика — проблему, которую поднимет любой технический директор, оценивающий поставщика решений для обработки данных от одного поставщика. «Эти предприятия редко полностью привязываются к одному поставщику, — сказал Ван. — У них есть стратегии, обеспечивающие передачу части трафика к нам, части — к другому поставщику, и балансировку нагрузки между ними. Это не новая проблема. Это просто общий подход к управлению облачными ресурсами».

В конечном счете, суть предложения сводится к чему-то большему, чем просто скорость и пропускная способность. Ван видит, как индустрия ИИ приближается к миру, в котором автономные агенты, а не разработчики-люди, будут основными потребителями вычислительных ресурсов для вывода информации, и в котором скорость этих агентов будет определять конкурентные результаты для компаний, которые их используют. «Мировая экономика в некотором смысле перестраивается на основе агентов», — сказал Ван. «Скорость определит, кто победит, а кто проиграет».

Это смелое заявление от компании, которая до прошлой недели никогда не торговалась на публичной бирже. Но для Cerebras логика проста: если будущее корпоративного программного обеспечения создается агентами ИИ, которые мыслят со скоростью своего оборудования, то компания, предоставляющая самое быстрое оборудование, обеспечивает и самое быстрое мышление. И на рынке, где предприятия тратят миллиарды, чтобы сократить время отклика своих ИИ на секунды, компания, способная обработать модель с триллионом параметров за время, необходимое для приготовления чашки кофе, может предложить наиболее убедительный вариант в Силиконовой долине.

Подпишитесь, чтобы получать самые свежие новости!

Подробные аналитические данные для руководителей предприятий в области искусственного интеллекта, данных и безопасности.

VB Daily AI Weekly Еженедельник AGI Еженедельник по безопасности Еженедельник по инфраструктуре данных Мероприятия VB Все они

Отправляя свой адрес электронной почты, вы соглашаетесь с нашими Условиями использования и Политикой конфиденциальности.

Получайте обновления ! Вы подписаны! Наши последние новости скоро поступят на вашу электронную почту.

Источник: venturebeat.com

✅ Найденные теги: Cerebras, Компания, новости, Обрабатывают, Утверждает, Чипы

Добавить комментарий

Новости других рубрик

Архив рубрики ~Лента новостей~: Принципы построения колоды для писателей: как создать эффективный инструмент для творчества Архив рубрики ~Лента новостей~: Все в режиме реального времени занимаются вопросами безопасности ИИ — даже Google. Архив рубрики ~Лента новостей~: Структура с дифференциальной приватностью для получения информации об использовании чат-ботов на основе ИИ. Архив рубрики ~Лента новостей~: Компании Cepheid и Oxford Nanopore расширяют партнерство, Revvity запускает новую платформу и многое другое. Архив рубрики ~Лента новостей~: Принципы работы современного ИИ: глубокое обучение и трансформеры Архив рубрики ~Лента новостей~: Amazon запускает Alexa для покупок, а Руфус переходит к работе за кулисами. Архив рубрики ~Лента новостей~: Использование AI для спасения китов в заливе Сан-Франциско Архив рубрики ~Лента новостей~: Из истории ряда мультибанковских карточных платежных систем