MiniMax анонсирует грядущую модель M3 с новым механизмом разреженного внимания и 15,6-кратным увеличением скорости отклика на длительный контекст.
Карл Франзен

Среди множества китайских компаний и лабораторий, занимающихся искусственным интеллектом и борющихся за долю рынка и внимание (игра слов здесь уместна) на мировом рынке, MiniMax выделяется своей приверженностью предоставлению передовых интеллектуальных решений в различных форматах, включая текст, кодирование и видео (через серию моделей Hailuo) — часто под гибкими, удобными для предприятий стандартными лицензиями с открытым исходным кодом.
Компания MiniMax вновь удивляет опытных пользователей и разработчиков ИИ по всему миру, выпустив новый подробный технический отчет о создании своей популярной серии языковых моделей M2 (M2, M2.5 и M2.7), в котором освещаются многочисленные инженерные инновации и оригинальные подходы. Кроме того, компания и ее руководители представили совершенно новый подход к разреженному вниманию для своей будущей серии моделей MiniMax M3, который, по их словам, обеспечивает до 15,6 раз более высокую скорость декодирования (или ответа LLM) в длинных контекстах (миллион токенов) за счет использования собственной субквадратичной структуры. Таким образом, MiniMax разработала M3, чтобы сделать развертывание агентов ИИ в сверхдлинных контекстах экономически целесообразным.
Отчет M2 заслуживает внимания любой компании, работающей с моделями ИИ, и особенно тех, кто стремится к тонкой настройке и обучению собственных моделей внутри компании. В конце концов, модели серии M2 от MiniMax часто демонстрировали лучшие в мире показатели производительности среди моделей ИИ с открытым исходным кодом на момент их выпуска.
Хотя с тех пор этот титул был затмён несколькими другими китайскими лабораториями, включая DeepSeek и Xiaomi, новый отчёт MiniMax предлагает план, который предприятия по всему миру могут использовать для повышения производительности моделей и агентов искусственного интеллекта.
Как отметила Адина Якуп из Hugging Face на X: «Помимо бенчмарков, они проделали действительно солидную работу по повышению эффективности MoE и разработке, ориентированной на агентов. С нетерпением жду, куда дальше двинется M3!»
Дилемма внимания
Основная техническая архитектура серии M2 основана на разреженной схеме трансформатора, состоящей только из декодеров типа Mixture-of-Experts (MoE), которая используется во многих других современных модулях LLM.
Базовая структура содержит в общей сложности 229,9 миллиарда параметров, но при этом отличается удивительной эффективностью в эксплуатации, активируя всего 9,8 миллиарда параметров на токен с помощью 256 высококвалифицированных экспертов.
Однако для оптимизации маршрутизации и во избежание стандартных проблем балансировки нагрузки MiniMax реализовал сигмоидную фильтрацию в сочетании с обучаемыми, специфичными для эксперта смещающими членами, что значительно снизило зависимость от ограничительных вспомогательных функций потерь.
Наиболее важным инженерным решением, описанным в статье M2, стало строгое соблюдение полного многоголовочного механизма внимания с групповым вниманием к запросам (GQA) на всех 62 слоях.
В больших языковых моделях «квадратичное масштабирование» относится к вычислительно затратной реальности стандартных механизмов полного внимания, где каждый токен в последовательности должен математически связываться с каждым другим токеном. Если использовать аналогию из реальной жизни, это похоже на посещение мероприятия по нетворкингу, где вас заставляют вести глубокую беседу с каждым человеком в зале, одновременно отслеживая все остальные текущие разговоры.
Хотя такой подход позволяет получить невероятно полный контекст, вычислительная мощность и объем памяти, необходимые для его обработки, возрастают пропорционально квадрату длины входных данных, создавая серьезное аппаратное узкое место, поскольку модели пытаются обрабатывать сотни тысяч слов.
Проблема субквадратичного масштабирования
«Субквадратичное» масштабирование вводит архитектурные упрощения, предназначенные для обхода экспоненциальной вычислительной нагрузки. Вместо отображения каждой возможной связи, субквадратичные методы — такие как механизм внимания со скользящим окном или сжатый линейный механизм внимания — могут анализировать только локализованное окно близлежащих слов или генерировать сжатое резюме более широкого текста.
Эти эффективные методы значительно снижают затраты на оборудование и позволяют моделям обрабатывать огромные объемы документов на высоких скоростях, но исторически они приводят к серьезным компромиссам в точности, часто заставляя ИИ упускать из виду «общую картину» или терять из виду отдаленный контекст.
Эта математическая дилемма определяет архитектурную эволюцию от MiniMax M2 до грядущей серии M3. В ходе разработки M2 исследователи тщательно тестировали субквадратичные сокращения, но обнаружили, что они парализуют «многошаговое рассуждение» модели — ее способность связывать разрозненные подсказки в длинном документе, — что вынудило команду пойти на огромные вычислительные затраты при использовании полного квадратичного внимания для поддержания интеллекта на передовом уровне.
Действительно, они активно тестировали эффективные альтернативные механизмы внимания на этапе предварительного обучения, но намеренно отбрасывали их. Они много экспериментировали с гибридными конфигурациями, чередуя полное внимание с субквадратичными архитектурами, такими как Lightning Attention, или гибридными конфигурациями Sliding Window Attention (SWA).
Эмпирические результаты оказались однозначными: в более крупном масштабе варианты с линейным и оконным вниманием продемонстрировали серьезные нарушения логического мышления.
При оценке результатов с использованием контекстных окон размером более 32 000 вариантов SWA наблюдались значительно худшие показатели по сравнению с вариантами с полным вниманием, снизившись с базового балла 90,0 до 72,0 в задаче извлечения сложных слов RULER 128K.
Субквадратичные конфигурации оказались подвержены ограничениям памяти во время обучения, не имели встроенной поддержки кэширования префиксов и не обеспечивали плавного согласования с модулями прогнозирования множественных токенов (MTP), используемыми для спекулятивного декодирования. Было признано необходимым полное внимание для сохранения возможности многошагового рассуждения.
Однако, понимая, что физические аппаратные ограничения не позволяют бесконечно поддерживать квадратичное масштабирование, MiniMax разрабатывает серию M3 на основе новой субквадратичной структуры, чтобы, наконец, обеспечить как высокоскоростную обработку, так и бескомпромиссное логическое мышление.
В разработке находятся MiniMax Sparse Attention (MSA) и субквадратичное масштабирование.
Предстоящая модель MiniMax-M3 избавляется от вычислительных ограничений своего предшественника. Как сообщила команда инженеров MiniMax под заголовком «Грядёт нечто грандиозное», в M3 представлена технология «MiniMax Sparse Attention» (MSA).
В отличие от алгоритма многоголовочного скрытого внимания (MLA) DeepSeek, который сжимает ключи и значения в низкоразмерное скрытое пространство, алгоритм MSA работает на стандартной архитектуре GQA, но использует выбор на уровне блоков для реальных, несжатых пар ключ-значение.
Эли Бакуч из лаборатории инфраструктуры и платформы для обучения ИИ Prime Intellect опубликовал на X сообщение, в котором отметил, что основные изменения касаются «выбора на уровне блоков, как в CSA, но внимание уделяется реальному ключу-значению, а не [сжатому пространству]».
Это решает проблемы потери точности и кэширования префиксов, отмеченные в статье о M2. Благодаря динамической фильтрации и выбору последовательностей на уровне блоков, MSA обеспечивает архитектурный скачок: раннее профилирование оборудования показывает 9,7-кратное ускорение задержки предварительного заполнения и колоссальное 15,6-кратное ускорение на этапах декодирования при длине последовательности в 1 миллион токенов по сравнению с архитектурой M2 с полным вниманием.
Чтобы понять, почему ускорение на этапе «декодирования» настолько значительно, полезно разобрать, как именно ИИ читает и записывает информацию. При взаимодействии с ИИ обработка происходит в два отдельных этапа: предварительное заполнение и декодирование.
Когда вы подаете ИИ запрос — будь то короткое предложение или огромный документ на 1000 страниц — он обрабатывает весь этот фрагмент текста одновременно и параллельно, что называется «предварительным заполнением». По сути, он «считывает» входные данные одним большим потоком, чтобы сформировать первоначальное понимание и установить контекст.
Для генерации ответа ИИ должен перейти в «фазу декодирования». Чтобы предсказать первое слово своего ответа, он смотрит на подсказку. Чтобы предсказать второе слово, он должен посмотреть на подсказку плюс первое слово. Чтобы предсказать сотое слово, он должен пересчитать контекст подсказки и предыдущие 99 слов, которые он только что написал. Таким образом, генерация ответа становится все сложнее по мере продвижения, и в конце требуется полный пересмотр всех предыдущих частей.
Представьте себе, что вы, не являясь специалистом в данной области, читаете объемный юридический документ (предварительное заполнение), а затем вынуждены писать краткий отчет, где перед каждым новым словом вам приходится быстро перечитывать весь документ, а также все, что вы уже написали, чтобы убедиться, что следующее слово имеет смысл (расшифровка).
Поскольку ИИ постоянно и многократно приходится оглядываться назад, чтобы сделать каждый новый шаг вперед, фаза декодирования является наиболее серьезным вычислительным узким местом при генерации текста. Именно поэтому модели ИИ часто набирают свои ответы слово за словом и почему они значительно замедляются по мере увеличения длины диалога.
Таким образом, когда в тексте говорится, что новая архитектура обеспечивает колоссальное 15,6-кратное ускорение на этапе декодирования при длине последовательности в 1 миллион токенов, это означает, что модель нашла структурный способ генерации ответа — токен за токеном — почти в 16 раз быстрее. Это напрямую решает ту самую проблему, которая обычно приводит к зависанию или подтормаживанию чат-ботов с искусственным интеллектом при обработке огромных объемов информации.
Эволюция серии MiniMax M и создание «Forge».
На уровне продукта компания MiniMax последовательно развивала свои модели, переходя от простых интерфейсов для генерации текста к автономным рабочим системам.
В серии M2 впервые был применен протокол «чередующегося мышления», в котором модель чередует траектории планирования на естественном языке и явные вызовы инструментов в рамках одной траектории. Вместо того чтобы отбрасывать промежуточные блоки цепочки мыслей между циклами выполнения, M2 добавляет полную историю мышления непосредственно в контекст диалога. Такая устойчивость планирования предотвращает дрейф состояния, позволяя модели корректно восстанавливаться после ошибок во время выполнения и пересматривать свои стратегии на основе обратной связи от окружающей среды.
Для обучения в таких долгосрочных рабочих процессах компания MiniMax разработала «Forge» — масштабируемую систему обучения с подкреплением, созданную специально для агентов. Forge разделяет выполнение на три независимых модуля: сторону агента, уровень абстракции промежуточного программного обеспечения (сервер шлюза и пул данных) и механизмы обучения/вывода.
Как объяснила инженер MiniMax Олив Сонг в подкасте ThursdAI: «Мы поняли, что у такой небольшой модели, как эта, огромный потенциал, если мы будем обучать её с подкреплением, используя большое количество сред и агентов… Но это не так-то просто», добавив, что именно на обучение с использованием различных сред команда потратила значительную часть времени разработки. Чтобы компенсировать экстремальные колебания длины траектории, характерные для многошаговых сред с агентами, Forge внедряет два важных инженерных решения:
-
Планирование FIFO с окном: планировщик обучения, который отображает скользящее окно на очередь генерации. Он позволяет осуществлять жадную, высокопроизводительную выборку завершенных задач в пределах окна, чтобы предотвратить простои кластера, при этом строго соблюдая границы FIFO для поддержания стабильности распределения и предотвращения колебаний градиента.
-
Слияние префиксных деревьев: оптимизация, которая преобразует пакетное обучение в вычисление дерева. Завершения, имеющие одинаковые префиксы разговора, вычисляются ровно один раз в прямом проходе перед ветвлением. Это исключает избыточные вычисления, обеспечивая ускорение обучения до 40 раз с нулевой ошибкой аппроксимации.
Эта инфраструктура для усиления напрямую породила контрольную точку M2.7, направив серию к «саморазвитию». Работая внутри автоматизированной системы агентов, M2.7 функционирует как независимый инженер машинного обучения. Модель анализирует собственные активные циклы обучения, диагностирует аномалии, считывает журналы и автоматически изменяет свой код и конфигурации.
По данным MiniMax, M2.7 успешно справлялся с 30-50% собственного рабочего процесса разработки.
В строгом тестовом пакете MLE Bench Lite от OpenAI, который проверяет возможности автономного машинного обучения, M2.7 показал 66,6% попаданий в медальный рейтинг по результатам независимых 24-часовых испытаний, фактически сравнявшись с показателями Gemini 3.1 Pro от Google, предназначенного для работы с грузами.
Непрерывный ритм работы от M2 до M2.5, который, как известно, позволил выполнить 30% внутренних задач и 80% вновь добавленного кода в штаб-квартире MiniMax, подчеркивает более широкое видение.
Как отметила команда MiniMax на этом этапе развертывания, «мы считаем, что M2.5 предоставляет практически безграничные возможности для развития и функционирования агентов в экономике».
Технический отчет, кодифицирующий успехи поколения M2, и технологический блог MSA, готовящиеся к запуску, свидетельствуют о том, что следующий рубеж в области ИИ заключается именно в преобразовании мини-активационного следа в максимальный реальный интеллект.
Подпишитесь, чтобы получать самые свежие новости!
Подробные аналитические данные для руководителей предприятий в области искусственного интеллекта, данных и безопасности.
Отправляя свой адрес электронной почты, вы соглашаетесь с нашими Условиями использования и Политикой конфиденциальности.
Получайте обновления ! Вы подписаны! Наши последние новости скоро поступят на вашу электронную почту.
Источник: venturebeat.com

Добавить комментарий
Для отправки комментария вам необходимо авторизоваться.