Закажи экспресс-аудит своего дела онлайн всего за 199 ₽
и получи рекомендации по улучшению - Жми сюда !

MIT оживили «диффузию для текста» — и это может быть…

MIT оживили «диффузию для текста» — и это может быть большой проблемой для обычных LLM

Команда MIT показала ELF (Embedded Language Flows) — подход, который наконец заставляет непрерывную диффузию нормально работать с текстом.

Это важно, потому что diffusion-модели давно доминируют в изображениях и видео, но с текстом всё упиралось в главную проблему: токены дискретны, а диффузия любит непрерывные пространства.

ELF пытается обойти этот фундаментальный конфликт.

Как работает ELF:

— дискретные токены сначала переводятся в пространство эмбеддингов через замороженный T5
— дальше модель работает только в непрерывном пространстве
— применяется Flow Matching и решение ODE/SDE
— обратно в текст всё превращается только на финальном шаге

Главная идея — не «ломать» токены шумом на каждом шаге генерации.

Ключевые моменты:

— модель на 105M параметров обходит конкурентов около 170M
— обучение потребовало всего 45B токенов
— это примерно в 10 раз меньше, чем у конкурентов

— хорошие результаты:
— машинный перевод
— summarization
— low-step generation

— достаточно около 32 шагов SDE
— поддерживается классический CFG
— scaling внутри диапазона 105M → 652M работает стабильно

— ограничения:
— пока это proof-of-concept
— крупнейшая модель — только 652M параметров
— неизвестно, что будет на масштабе 7B–70B

Если подход масштабируется, это может стать одним из самых интересных альтернативных путей развития текстовых моделей после привычных autoregressive LLM.

ИдеиPRO
✅ Найденные теги: MIT, MIT,, Диффузию, Может, новости, Оживили, Текста

Добавить комментарий