MIT оживили «диффузию для текста» — и это может быть…
MIT оживили «диффузию для текста» — и это может быть большой проблемой для обычных LLM
Команда MIT показала ELF (Embedded Language Flows) — подход, который наконец заставляет непрерывную диффузию нормально работать с текстом.
Это важно, потому что diffusion-модели давно доминируют в изображениях и видео, но с текстом всё упиралось в главную проблему: токены дискретны, а диффузия любит непрерывные пространства.
ELF пытается обойти этот фундаментальный конфликт.
Как работает ELF:
— дискретные токены сначала переводятся в пространство эмбеддингов через замороженный T5
— дальше модель работает только в непрерывном пространстве
— применяется Flow Matching и решение ODE/SDE
— обратно в текст всё превращается только на финальном шаге
Главная идея — не «ломать» токены шумом на каждом шаге генерации.
Ключевые моменты:
— модель на 105M параметров обходит конкурентов около 170M
— обучение потребовало всего 45B токенов
— это примерно в 10 раз меньше, чем у конкурентов
— хорошие результаты:
— машинный перевод
— summarization
— low-step generation
— достаточно около 32 шагов SDE
— поддерживается классический CFG
— scaling внутри диапазона 105M → 652M работает стабильно
— ограничения:
— пока это proof-of-concept
— крупнейшая модель — только 652M параметров
— неизвестно, что будет на масштабе 7B–70B
Если подход масштабируется, это может стать одним из самых интересных альтернативных путей развития текстовых моделей после привычных autoregressive LLM.


Добавить комментарий
Для отправки комментария вам необходимо авторизоваться.