Архив рубрики ~Коротко из Telegram~

MIT оживили «диффузию для текста» — и это может быть…

MIT оживили «диффузию для текста» — и это может быть…

MIT оживили «диффузию для текста» — и это может быть большой проблемой для обычных LLM

Команда MIT показала ELF (Embedded Language Flows) — подход, который наконец заставляет непрерывную диффузию нормально работать с текстом.

Это важно, потому что diffusion-модели давно доминируют в изображениях и видео, но с текстом всё упиралось в главную проблему: токены дискретны, а диффузия любит непрерывные пространства.

ELF пытается обойти этот фундаментальный конфликт.

Как работает ELF:

— дискретные токены сначала переводятся в пространство эмбеддингов через замороженный T5
— дальше модель работает только в непрерывном пространстве
— применяется Flow Matching и решение ODE/SDE
— обратно в текст всё превращается только на финальном шаге

Главная идея — не «ломать» токены шумом на каждом шаге генерации.

Ключевые моменты:

— модель на 105M параметров обходит конкурентов около 170M
— обучение потребовало всего 45B токенов
— это примерно в 10 раз меньше, чем у конкурентов

— хорошие результаты:
— машинный перевод
— summarization
— low-step generation

— достаточно около 32 шагов SDE
— поддерживается классический CFG
— scaling внутри диапазона 105M → 652M работает стабильно

— ограничения:
— пока это proof-of-concept
— крупнейшая модель — только 652M параметров
— неизвестно, что будет на масштабе 7B–70B

Если подход масштабируется, это может стать одним из самых интересных альтернативных путей развития текстовых моделей после привычных autoregressive LLM.

Оцените материал:

Поделиться
Понравилась статья? Расскажите другим
ВКонтакте
Читайте также
Архив рубрики ~Лента новостей~ NTSB начала расследование смертельной аварии с участием Tesla в Техасе. Архив рубрики ~Лента новостей~ Компьютерное зрение против рутины: как мы ускорили анализ поведения лабораторных мышей Архив рубрики ~Лента новостей~ Компания OpenAI представила свой первый специализированный чип для обработки данных с помощью ИИ, Jalapeño, разработанный совместно с Broadcom, — при этом его разработка была ускорена за счет использования собственных моделей OpenAI. Архив рубрики ~Лента новостей~ LLM или RAG: когда хватит универсальной нейросети, а когда нет Архив рубрики ~Лента новостей~ [Перевод] Как SpaceX унизила Уолл-стрит Архив рубрики ~Лента новостей~ Почти три процента американцев в 2024 году сообщили о приеме псилоцибина в течение года до опроса. Оценку провели по данным национально репрезентативного опроса Архив рубрики ~Лента новостей~ В ответ на протесты пользователей AMD восстановила шифрование памяти в потребительских процессорах. Архив рубрики ~Лента новостей~ Ответы на мини-кроссворд NYT за среду, 24 июня. Новости робототехники Производитель гуманоидов Agility Robotics выйдет на рынок в результате слияния со SPAC Архив рубрики ~Лента новостей~ Радикально простой электрический грузовик от Slate Auto стоит от 24 950 долларов. Архив рубрики ~Лента новостей~ Claude Code Antifraud: Колмогоров‑Смирнов и недетские аномалии на детской олимпиаде Архив рубрики ~Лента новостей~ К2Тех запускает RuClaw — платформу для безопасного развертывания ИИ-агентов в корпоративном контуре Архив рубрики ~Лента новостей~ Samsung открывает доступ к ChatGPT Enterprise и Codex после снятия ограничений, связанных с искусственным интеллектом. Архив рубрики ~Лента новостей~ Почему промпты не работают: 4 ошибки, которые я делала первые полгода Архив рубрики ~Лента новостей~ NTSB начала расследование смертельной аварии с участием Tesla в Техасе. Архив рубрики ~Лента новостей~ Компьютерное зрение против рутины: как мы ускорили анализ поведения лабораторных мышей Архив рубрики ~Лента новостей~ Компания OpenAI представила свой первый специализированный чип для обработки данных с помощью ИИ, Jalapeño, разработанный совместно с Broadcom, — при этом его разработка была ускорена за счет использования собственных моделей OpenAI. Архив рубрики ~Лента новостей~ LLM или RAG: когда хватит универсальной нейросети, а когда нет Архив рубрики ~Лента новостей~ [Перевод] Как SpaceX унизила Уолл-стрит Архив рубрики ~Лента новостей~ Почти три процента американцев в 2024 году сообщили о приеме псилоцибина в течение года до опроса. Оценку провели по данным национально репрезентативного опроса Архив рубрики ~Лента новостей~ В ответ на протесты пользователей AMD восстановила шифрование памяти в потребительских процессорах. Архив рубрики ~Лента новостей~ Ответы на мини-кроссворд NYT за среду, 24 июня. Новости робототехники Производитель гуманоидов Agility Robotics выйдет на рынок в результате слияния со SPAC Архив рубрики ~Лента новостей~ Радикально простой электрический грузовик от Slate Auto стоит от 24 950 долларов. Архив рубрики ~Лента новостей~ Claude Code Antifraud: Колмогоров‑Смирнов и недетские аномалии на детской олимпиаде Архив рубрики ~Лента новостей~ К2Тех запускает RuClaw — платформу для безопасного развертывания ИИ-агентов в корпоративном контуре Архив рубрики ~Лента новостей~ Samsung открывает доступ к ChatGPT Enterprise и Codex после снятия ограничений, связанных с искусственным интеллектом. Архив рубрики ~Лента новостей~ Почему промпты не работают: 4 ошибки, которые я делала первые полгода

Оставить комментарий