Представляем ZAYA1-8B, сверхэффективную модель с открытым логическим мышлением, обученную на графических процессорах AMD Instinct MI300.
Карл Франзен

В то время как ведущие поставщики решений в области ИИ, такие как OpenAI и Anthropic, борются за вычислительные ресурсы для обучения и выпуска все более крупных и мощных моделей, другие лаборатории идут в другом направлении — они занимаются разработкой более компактных и эффективных моделей и часто открывают их исходный код.
Последняя заслуживающая внимания разработка принадлежит малоизвестному стартапу Zyphra из Пало-Альто, который на этой неделе выпустил свою новую языковую модель ZAYA1-8B, основанную на методе смешанных экспертов (MoE), с чуть более чем 8 миллиардами параметров и всего 760 миллионами активных узлов — гораздо меньше, чем триллионы, которые оцениваются крупными лабораториями. Тем не менее, ZAYA1-8B демонстрирует конкурентоспособные результаты в сторонних бенчмарках по сравнению с GPT-5-High и DeepSeek-V3.2.
Его можно бесплатно скачать с сайта Hugging Face под разрешительной, стандартной, удобной для предприятий лицензией Apache 2.0 — и предприятия, и независимые разработчики могут сразу же начать использовать и настраивать его в соответствии со своими потребностями. Индивидуальные пользователи также могут бесплатно протестировать его здесь, в Zyphra Cloud, решении для обработки данных от этого стартапа.
Но настоящая изюминка заключается в том, на чём обучалась модель ZAYA1-8B: на полном стеке графических процессоров AMD Instinct MI300, конкуренте графических процессоров Nvidia, выпущенных AMD почти три года назад, и которые показывают, что эта платформа способна создавать полезные модели и является жизнеспособной альтернативой привилегированному положению, которое Nvidia занимала в последние годы среди разработчиков моделей ИИ.
Как проходила подготовка ZAYA1-8B
«Высокая плотность интеллекта», о которой говорит Zyphra, является результатом того, что они описывают как «комплексный инновационный подход», охватывающий архитектуру, предварительное обучение и обучение с подкреплением (RL).
ZAYA1-8B построена на основе собственной архитектуры MoE++ компании Zyphra, описанной в техническом отчете, выпущенном лабораторией. Эта архитектура вносит три фундаментальных изменения в стандартную архитектуру Transformer, которая привела к появлению больших языковых моделей (LLM) и всей эры генеративного искусственного интеллекта:
-
Сжатое сверточное внимание (CCA): В отличие от стандартных механизмов внимания, которые испытывают проблемы с памятью по мере увеличения контекстных окон, CCA выполняет смешивание последовательностей в сжатом латентном пространстве. Это приводит к уменьшению размера KV-кэша в 8 раз по сравнению с полным многоголовочным вниманием, что позволяет более эффективно обрабатывать информацию в длительном контексте.
-
Маршрутизатор ZAYA1 MLP: В большинстве моделей MoE используется линейный маршрутизатор для определения того, какие «эксперты» обрабатывают конкретный токен. Zyphra заменила его более выразительной многослойной конструкцией на основе MLP. Для поддержания стабильности во время обучения — распространенной проблемы для MoE — они внедрили схему балансировки смещения, вдохновленную ПИД-регуляторами из классической теории управления.
-
Обучение остаточному масштабированию: Этот параметр контролирует рост «остаточной нормы» по мере того, как данные проникают глубже в 40 слоев модели, предотвращая исчезновение или взрыв градиента с незначительными вычислительными затратами.
Предварительное обучение на основе логического мышления
Ключевым отличием ZAYA1-8B является то, что логическое мышление было интегрировано с самого начала предварительного обучения, а не было «добавлено» в процессе последующего обучения.
Для обработки длинных цепочек мыслей (CoT), которые в противном случае вышли бы за пределы исходного контекста предварительного обучения размером 4K, компания Zyphra разработала алгоритм обрезки с сохранением ответа (AP Trimming) .
Представьте себе, что обрезка по методу AP — это как монтажёр фильма, монтирующий длинную сцену: вместо того, чтобы вырезать концовку (решение) или полностью удалять сцену, монтажёр удаляет «середину» монолога персонажа, сохраняя начало (завязку проблемы) и финальное раскрытие (ответ).
Это гарантирует, что модель изучит взаимосвязь между сложными проблемами и их решениями, даже если вся внутренняя логика еще не помещается в память.
В ходе тестирования запроса по удалению пятен с кухонных столешниц для образца ZAYA1-8B, запущенного в Zyphra Cloud, всё прошло успешно.

Марковский RSA: переосмысление вычислительных процессов во время тестирования
Наиболее значительный скачок в производительности модели достигается за счет Markovian RSA , новой методологии вычислений во время тестирования (TTC).
Традиционно, если вы хотите, чтобы модель «думала глубже», вы позволяете ей генерировать более длинную цепочку мыслей. Однако это часто приводит к «раздуванию контекста», когда модель теряет фокус по мере того, как история становится слишком длинной.
Марковский RSA решает эту проблему, разделяя понятия «глубина мышления» и «размер контекста». Он функционирует как рекурсивный процесс рецензирования научных работ:
-
Модель генерирует несколько параллельных вариантов рассуждений (кандидатов).
-
Затем программа извлекает только «хвосты» (последние несколько тысяч токенов) этих следов.
-
Эти «хвосты» выборки подвергаются субдискретизации и представляются модели в новом «запросе на агрегирование», в котором ей предлагается согласовать различные подходы для получения лучшего решения.
Перенося вперед только хвосты (обычно с бюджетом в 4000 токенов), модель может рассуждать бесконечно, не допуская переполнения контекстного окна. На практике это позволяет модели ZAYA1-8B с 700 миллионами активных параметров достичь результата в 91,9% на AIME '25 , сократив отставание от моделей, имеющих в 30-50 раз больше активных параметров.
Благодаря небольшому общему объему параметров (8,4 млрд), ZAYA1-8B занимает уникальное положение для развертывания на устройствах и локальных приложений LLM. Для предприятий это позволяет развертывать возможности высокоуровневого логического вывода — традиционно доступные только для масштабных облачных моделей — непосредственно на локальном оборудовании или периферийных устройствах. Такой подход к логическому выводу, ориентированный на локальное размещение, решает распространенные проблемы предприятий, связанные с размещением данных, задержкой и высокой стоимостью постоянных зависимостей от API.
Результаты тестов показывают, что эта компактная модель демонстрирует впечатляющие показатели, превосходящие ожидания в своем классе.
Компания Zyphra позиционирует ZAYA1-8B как модель, превосходящую ожидания, для разработчиков, которым необходимы высокоуровневые логические вычисления без задержек и затрат, характерных для масштабных моделей. В конце концов, количество активных параметров в ней значительно меньше, чем в других моделях аналогичного размера, что делает её гораздо дешевле и менее ресурсоёмкой для выполнения инференции.

-
Инструкция: ZAYA1-8B набрала 85,58 баллов на IFEval , оставаясь конкурентоспособной по сравнению с гораздо более крупными моделями, такими как Intellect-3 (106B).
-
Возможности агента: В бенчмарке τ² модель достигает 43,12 , а в BFCL-v4 — 39,22 , что является базовым показателем ее способности обрабатывать вызов инструментов и многоходовые задачи.
В ходе тестирования в рамках одной установки (без дополнительного времени на обдумывание) ZAYA1-8B уже превосходит показатели своей весовой категории. Она опережает Qwen3.5-4B и Gemma-4-E4B по математическим и программным показателям.

При включении алгоритма Markovian RSA результаты оказываются поразительными:
-
HMMT '25 (Математика): ZAYA1-8B набрал 89,6% , превзойдя сонет Клода 4.5 (79,2%) и GPT-5-High (88,3%).
-
LiveCodeBench (программирование): Модель достигает 69,2% , превосходя DeepSeek-R1-0528 .
Компания Zyphra отмечает, что, хотя модель специализируется на алгоритмическом рассуждении, она несколько отстает от более крупных моделей в задачах, требующих больших объемов знаний, таких как поиск фактов в широком контексте (MMLU-Pro). Это говорит о том, что, хотя рассуждения можно сжать в более мелкие ядра, фактическая память все же выигрывает от количества параметров.
Apache 2.0 — открытая лицензия для исследовательского и коммерческого использования.
Компания Zyphra выпустила ZAYA1-8B под лицензией Apache-2.0 . Это критически важное решение для сообщества разработчиков. В отличие от лицензий типа «copyleft», таких как GPL, которые требуют, чтобы любые производные работы также были открытыми, лицензия Apache-2.0 является очень либеральной.
Для разработчиков и предприятий это означает, что они могут использовать, модифицировать и распространять ZAYA1-8B — даже в рамках собственных коммерческих приложений — без необходимости открывать исходный код своих собственных программных баз.
Это также включает в себя явное предоставление патентных прав от участников, что обеспечивает дополнительный уровень юридической защиты для стартапов, разрабатывающих приложения на основе архитектуры Zyphra. Выбрав Apache-2.0 вместо более ограничительных лицензий «только для исследований», часто встречающихся в передовых лабораториях, Zyphra демонстрирует свою приверженность открытой экосистеме.
Для развертывания ZAYA1-8B разработчикам необходимо использовать определенные ветки из форков основных библиотек Zyphra, поскольку архитектура требует специализированного подхода:
-
Пользовательские форки: Пользователям следует установить ветку zaya1 из версий библиотек vllm и transformers, предоставленных Zyphra.
-
Флаги развертывания: При запуске сервера vLLM требуются определенные флаги для обработки работы анализатора логических рассуждений и вызова инструментов (например, —reasoning-parser qwen3 и —tool-call-parser zaya_xml).
-
Стратегия параллелизма: Для сред с несколькими графическими процессорами Zyphra рекомендует использовать параллелизм данных (DP) в сочетании с экспертным параллелизмом (EP) . Следует отметить, что тензорный параллелизм (TP) для механизма CCA модели в настоящее время не поддерживается, поэтому DP+EP является оптимальным вариантом для масштабирования пропускной способности вывода.
Информация о препарате Зифра
Зифра: новая парадигма плотности интеллекта
Компания Zyphra Technologies, основанная в 2021 году и имеющая штаб-квартиру в Пало-Альто, штат Калифорния, является полнофункциональной лабораторией искусственного интеллекта, занимающейся созданием искусственного общего интеллекта (AGI), соответствующего человеческим стандартам — интеллекта, превосходящего людей в большинстве задач — с помощью децентрализованной платформы с открытым исходным кодом.
Согласно официальной миссии компании, Zyphra стремится бросить вызов «централизованному» доминированию монолитных облачных моделей, сосредоточившись на «плотности интеллекта» — ключевом руководящем принципе, направленном на максимизацию извлекаемых рассуждений и логики на каждый параметр и на каждую операцию с плавающей запятой.
Генеральный директор и соучредитель Zyphra Критик Путалат ранее объяснил VentureBeat, что эта стратегия необходима для обеспечения возможности локального запуска высокопроизводительного ИИ на таком оборудовании, как планшеты, носимые очки и корпоративные серверы, что гарантирует конфиденциальность пользователей и снижает зависимость от сторонней облачной инфраструктуры.
В основе технической концепции компании лежат достижения вычислительной нейронауки, возглавляемые соучредителем и главным научным сотрудником Береном Миллиджем.
Согласно личному веб-сайту Миллиджа, в настоящее время он работает научным сотрудником в отделе клинической нейронауки Наффилда Оксфордского университета, где его исследования сосредоточены на глубоком распределении кредитов и математических моделях мозга.
Миллидж, получивший докторскую степень в Эдинбургском университете, является пионером в исследованиях активного вывода и «принципа свободной энергии» — концепций, которые напрямую влияют на стремление Zyphra к созданию многомодальных архитектур, способных к долговременной памяти и непрерывному обучению.
Влияние нейробиологии сыграло центральную роль в разработке предыдущей модели Zamba компании Zyphra, выпущенной в 2024 году, которая имитирует взаимодействие коры головного мозга и гиппокампа для обмена информацией между последовательными слоями. Недавнее видео с выступления на TED Talk дает представление о взгляде Миллиджа на пересечение биологической нейробиологии и искусственного интеллекта, которое служит теоретической основой для архитектуры моделей Zyphra.
Компания Zyphra достигла значительных технических успехов благодаря глубокой интеграции с аппаратной экосистемой AMD, как подробно описано в исследовательской документации компании.
Согласно финансовым данным PitchBook, Zyphra в настоящее время является компанией, финансируемой венчурным капиталом, и получила статус «единорога» в июне 2025 года после раунда финансирования серии А на сумму 110 миллионов долларов. По данным PitchBook и пресс-релизов компании, Zyphra поддерживается группой стратегических инвесторов, включая Advanced Micro Devices (AMD), IBM, Bison Ventures и BC VC. К 2026 году в компании будет работать около 31 сотрудника, и она продолжает расширять свое присутствие на рынке благодаря Zyphra Inference Cloud и Maia, интеллектуальной платформе-помощнику, разработанной для предоставления передовых инструментов поиска и повышения производительности корпоративным командам.
Реакция общества и отраслевой контекст
Анонс вызвал большой резонанс в сообществе ИИ, собрав почти 1 миллион просмотров в X/Twitter за 24 часа. Ажиотаж в основном связан с двумя факторами: жизнеспособностью стека AMD и эффективностью «каскадного» механизма рассуждений.
Специалисты по технологиям отметили, что процесс постобучения в Zyphra — четырехэтапный каскад обучения с подкреплением — отличается необычайной дисциплинированностью. Большинство лабораторий используют один раунд обучения с подкреплением, но конвейер Zyphra включает в себя «разминку для развития логического мышления», за которой следует программа из 400 адаптивных сред, похожих на головоломки (RLVE-Gym), прежде чем, наконец, перейти к оттачиванию поведенческих навыков.
Одна из наиболее высоко оцененных «внутренних» деталей — это Router Replay . В моделях MoE обучение может стать нестабильным, если «тренерский» движок и «движок вывода» принимают несколько разные решения о том, какого эксперта использовать для токена из-за шума в вычислениях с плавающей запятой. Система Zyphra записывает точный выбор эксперта, сделанный во время генерации, и заставляет тренера использовать именно его, эффективно «фиксируя» путь вычислений и обеспечивая более высокую стабильность обучения.
Поскольку отрасль, возможно, столкнется с застоем в получении выгоды от простого добавления большего количества параметров, ZAYA1-8B предлагает убедительную альтернативную точку зрения: следующий рубеж ИИ — это не просто более крупные кластеры, а более интеллектуальные «мыслящие» алгоритмы, способные делать больше с меньшими ресурсами.
Подпишитесь, чтобы получать самые свежие новости!
Подробные аналитические данные для руководителей предприятий в области искусственного интеллекта, данных и безопасности.
Отправляя свой адрес электронной почты, вы соглашаетесь с нашими Условиями использования и Политикой конфиденциальности.
Получайте обновления ! Вы подписаны! Наши последние новости скоро поступят на вашу электронную почту.
Источник: venturebeat.com

Добавить комментарий
Для отправки комментария вам необходимо авторизоваться.