Сервис DiffusionGemma от Google генерирует 256 токенов параллельно и автоматически корректирует свои данные по мере работы.

11.06.2026 ideipro.ru

Шон Майкл Кернер

Текст, демонстрирующий понимание диффузии

Генераторы изображений GenAI, такие как Stable Diffusion, не рисуют изображение пиксель за пикселем слева направо. Они начинают с шума и итеративно параллельно улучшают все изображение до тех пор, пока оно не сойдется, в процессе, известном как диффузия. В течение многих лет применение того же принципа к генерации текста оставалось недоступным в больших масштабах.

Стандартные языковые модели работают как пишущая машинка: по одному токену за раз, слева направо, без возможности редактирования зафиксированного результата. Этот принцип работает в облаке, где большие пакеты данных обеспечивают высокую загрузку графических процессоров. При локальном выводе или развертывании с низкой степенью параллелизма графический процессор большую часть времени простаивает.

Представленная на этой неделе модель DiffusionGemma от Google — это экспериментальная модель с открытым исходным кодом, которая применяет диффузию к генерации текста в промышленных масштабах. Созданная на основе Gemma 4 и выпущенная под лицензией Apache 2.0, она является первой языковой моделью диффузии, изначально поддерживаемой платформой вывода vLLM с открытым исходным кодом. Она генерирует блок из 256 токенов параллельно, а не последовательно, при этом каждая позиция токена обрабатывает каждую вторую. Google утверждает, что DiffusionGemma генерирует текст до 4 раз быстрее, чем стандартные модели на графических процессорах. При размере пакета 1 на одном Nvidia H100 версия FP8 достигает 1008 токенов в секунду. На H200 она достигает 1288 — примерно в шесть раз больше, чем стандартная авторегрессионная базовая модель, согласно результатам бенчмарка vLLM, опубликованным сегодня.

Несмотря на повышение скорости, Google не стал преувеличивать преимущества релиза. В сообщении о запуске компания прямо признала, что общее качество выходных данных DiffusionGemma ниже, чем у стандартной Gemma 4, добавив: «Для приложений, требующих максимального качества, мы рекомендуем использовать стандартную Gemma 4».

Что делает DiffusionGemma?

DiffusionGemma не генерирует токены по порядку. Она начинает с блока из 256 случайных токенов-заполнителей, по сути, чистого холста, и выполняет несколько проходов уточнения по всему блоку одновременно. На каждом проходе она оценивает каждую позицию и фиксирует те, в которых наиболее уверена. Неопределенные позиции рандомизируются и пересматриваются на следующем проходе, при этом модель использует результаты предыдущего раунда для следующей попытки. Блок постепенно сходится, пока достаточное количество позиций не стабилизируется, чтобы закрепить остальные.

Из этой архитектуры вытекают две вещи.

Самокоррекция. Авторегрессионная модель, которая фиксирует ошибку в выбранном токене, остается с ним, поскольку последующие токены уже обусловлены этой ошибкой. DiffusionGemma может выявлять позиции с низкой степенью уверенности и переоценивать их на следующем проходе.
Двунаправленный контекст. Каждая позиция одновременно взаимодействует со всеми остальными позициями в блоке, включая токены, появляющиеся позже в последовательности. Это делает модель структурно более подходящей для задач генерации с ограничениями, где генерация слева направо не работает.

Компания Google продемонстрировала оба свойства с помощью доработанного решателя судоку. Базовая модель не решила ни одной головоломки. После доработки на наборе данных судоку она достигла 80% успеха и сошлась за 12 шагов шумоподавления вместо 48. Повышение эффективности напрямую связано со способностью модели к самокоррекции и досрочной остановке.

Как он был построен

DiffusionGemma работает как модель «смесь экспертов» с 26 байтами памяти, которая активирует только 3,8 байта параметров во время инференса. Благодаря квантованию, она помещается в 18 ГБ видеопамяти на потребительском оборудовании, включая Nvidia RTX 4090 и 5090. Google и NVIDIA также оптимизировали её для корпоративных серверов Hopper и Blackwell, используя ядра NVFP4.

Интеграция vLLM потребовала новых разработок, поскольку DiffusionGemma не соответствует стандартной модели обслуживания. Типичный пакет vLLM применяет один и тот же тип внимания ко всем запросам. Запросы DiffusionGemma чередуют причинное и двунаправленное внимание по мере прохождения циклов чтения подсказки, уточнения холста и фиксации блока. Команда реализовала переключение внимания для каждого запроса как в бэкенде Triton, так и в FlashAttention 4, и повторно использовала существующий путь спекулятивного декодирования для цикла уточнения.

Новый интерфейс ModelState, разработанный командой для этой интеграции, предназначен для поддержки дополнительных моделей распространения в vLLM по мере их появления.

Где скорость побеждает, а где нет.

Преимущество DiffusionGemma в скорости реально, но условно. Где оно проявляется, полностью зависит от контекста развертывания.

Цифры. При размере пакета 1 на одном H100 опубликованные vLLM тесты показывают, что модель FP8 примерно в пять раз превосходит стандартную авторегрессионную базовую модель. На H200 — примерно в шесть раз. Эти пиковые значения отражают оптимальные условия: один пользователь, выделенное оборудование, квантование FP8.

Там, где оно выигрывает. Локальный вывод, однопользовательские приложения и обслуживание с низкой степенью параллелизма. В этих условиях графический процессор имеет свободные вычислительные ресурсы, а узким местом становится пропускная способность памяти. Параллельная генерация блоков DiffusionGemma заполняет этот пробел.

Там, где это не так. Высокопроизводительное облачное обслуживание. Когда сервер обрабатывает сотни одновременных запросов, авторегрессионные модели уже истощают доступные вычислительные ресурсы, а параллельное декодирование DiffusionGemma обеспечивает убывающую отдачу.

Потолок качества. Гильерме О'Тина, исследователь в области искусственного интеллекта, более точно определил это понятие на примере X. «Локальные артефакты и галлюцинации — это разные проблемы, и именно это определяет, в чем здесь действительно побеждает», — написал О'Тина.

Как это сравнивается

Диффузионные языковые модели не являются чем-то новым. Исследователи создавали их в меньших масштабах в течение нескольких лет, а компания Inception Labs и её продукт Mercury Coder применили этот подход в коммерческих целях для решения задач программирования в 2025 году. DiffusionGemma добавляет масштабируемость — 26-битную архитектуру MoE, нативное обслуживание vLLM и универсальную модель, оптимизированную для конкретных инструкций, а не для конкретной предметной области.

Для инженеров, оценивающих это по сравнению с существующими инструментами вывода, более полезным будет сравнение со спекулятивным декодированием, и это различие имеет значение. Спекулятивное декодирование сохраняет стандартную авторегрессионную целевую модель и использует меньшую черновую модель для угадывания нескольких токенов вперед. Целевая модель проверяет их за один проход. Если выборка верна, распределение выходных данных остается идентичным целевому. Архитектура остается неизменной.

Эндрю Кунцевич, исследователь в области машинного обучения и искусственного интеллекта, специализирующийся на системах искусственного интеллекта для производства, прямо заявил об этом в адрес X. «DiffusionGemma отличается. Она не просто угадывает будущие токены. Она создает шумное полотно из 256 токенов и многократно параллельно очищает весь блок от шума. Так что это не просто трюк с декодированием — это парадигма другого поколения», — написал Кунцевич.

По сравнению со стандартным Gemma 4, здесь скорость ценится на качество. Данные бенчмарков Google показывают, что DiffusionGemma уступает стандартному Gemma 4 по общим показателям качества выходных данных, причем разница варьируется в зависимости от задачи.

В задачах со структурированными ограничениями, включая заполнение кода, генерацию шаблонов и проблемы, требующие двунаправленного распространения ограничений, архитектура обладает структурным преимуществом, которое может быть выявлено путем тонкой настройки, как показывает результат в судоку. В задачах с открытой генерацией стандартная Gemma 4 остается более предпочтительным вариантом.

Что это значит для предприятий

DiffusionGemma работает через стандартную конечную точку vLLM, совместимую с OpenAI, и не требует изменений в конвейере обработки данных, специфичных для диффузии.

Это не обновление модели общего назначения.

Для команд, работающих с локальным или низкопараллельным выводом, выбор архитектуры значительно расширился. До сих пор сокращение задержки генерации на выделенном графическом процессоре означало использование модели меньшего размера и компромисс в качестве. DiffusionGemma предлагает третий путь с тем же набором параметров, на потребительском оборудовании, с поддержкой vLLM в тот же день.

Для задач генерации с ограниченными ресурсами стоит оценить двунаправленное внимание. Заполнение кода, генерация структурированных данных и задачи, где корректный результат зависит от контекста, который еще не был сгенерирован, — вот где эта архитектура имеет структурное преимущество.

Интерфейс ModelState, созданный для этой интеграции, предназначен для обобщения по мере появления дополнительных моделей диффузии.

Компромисс в качестве реален, и Google это признает. Для команд, использующих локальный вывод на выделенных графических процессорах, это стоит протестировать.

Подпишитесь, чтобы получать самые свежие новости!

Подробные аналитические данные для руководителей предприятий в области искусственного интеллекта, данных и безопасности.

VB Daily AI Weekly Еженедельник AGI Еженедельник по безопасности Еженедельник по инфраструктуре данных Мероприятия VB Все они

Отправляя свой адрес электронной почты, вы соглашаетесь с нашими Условиями использования и Политикой конфиденциальности.

Получайте обновления ! Вы подписаны! Наши последние новости скоро поступят на вашу электронную почту.

Источник: venturebeat.com

Оцените материал:

Оставить комментарий Отменить ответ

Для отправки комментария вам необходимо авторизоваться.

Сервис DiffusionGemma от Google генерирует 256 токенов параллельно и автоматически корректирует свои данные по мере работы.

Что делает DiffusionGemma?

Как он был построен

Где скорость побеждает, а где нет.

Как это сравнивается

Что это значит для предприятий

Подпишитесь, чтобы получать самые свежие новости!

Оставить комментарий Отменить ответ

🤖 Нельсон AI

Гайды, руководства и полезные статьи

Что делает DiffusionGemma?

Как он был построен

Где скорость побеждает, а где нет.

Как это сравнивается

Что это значит для предприятий

Подпишитесь, чтобы получать самые свежие новости!

Похожие записи

Похожие записи

Инициатива Amplify: локализованные данные для глобализированного ИИ.

И напоследок перед новым днем сообщим, что китайский робопёс Deep Robotics LYNX M20 продемонстрировал свои впечатляющие возможности в 30-градусный мороз.

ChatGPT тестирует загадочную новую функцию под названием «изучение вместе»

Оставить комментарий Отменить ответ

Присоединяйтесь и подпишитесь на рассылку самых свежих новостей по Email

🤖 Нельсон AI