Закажи экспресс-аудит своего дела онлайн всего за 199 ₽
и получи рекомендации по улучшению - Жми сюда !

Новая статья из CMU и University of Maryland: языковым моделям нужен сон, и это не шутка

Авторы из Carnegie Mellon и University of Maryland (в команде и Том Голдстейн) выкатили работу Language Models Need Sleep. Идея: научить LLM периодически уходить в режим сна и переписывать накопленный контекст в постоянные fast weights, а потом чистить KV‑кэш. Получается своего рода биологический хак: всё важное переезжает в долгосрочную память, оперативка освобождается, а модель не захлебывается от длинных контекстов.

Проблема, с которой все знакомы: attention масштабируется ужасно. Общий объём вычислений растёт квадратично по длине контекста, память под KV‑кэш растёт линейно. На long‑horizon задачах вроде агентов, работы с большими кодовыми базами или длинных рассуждений трансформер трещит по швам по обоим фронтам.

Как работает sleep‑consolidation. В архитектуру добавляются блоки state‑space (SSM) с быстрыми весами. Пока модель бодрствует, она обычным образом предсказывает токены. Раз в какое‑то время срабатывает фаза сна: модель делает N оффлайновых рекуррентных проходов по накопленному контексту и по выученному локальному правилу переписывает fast weights в SSM‑блоках. После этого KV‑кэш можно выкинуть.

Самый приятный эффект в том, что вся дополнительная вычислительная работа прячется в сон, то есть не влияет на задержку ответа. С точки зрения пользователя модель отвечает с той же скоростью, что и раньше, просто стала умнее и помнит больше.

Проверяли это всё на жёстких бенчмарках: клеточные автоматы, multi‑hop graph retrieval и реалистичное математическое рассуждение. На этих задачах обычный трансформер и даже гибриды SSM с attention в фиксированном бюджете памяти фейлят. Модель со сном проходит их методично, причём чем дольше этот самый сон, тем лучше результат. Особенно заметный прыжок на задачах, где нужно глубокое рассуждение.

По факту авторы предлагают разменять оффлайновые вычисления на качество и время отклика. Для любых агентских стеков и долгоживущих рабочих процессов это очень приятно: можно пустить фазу сна ночью или между запросами, получить прокачанные fast weights, а на onboard времени иметь пользовательский опыт, не просевший по скорости.

Источники:

https://arxiv.org/abs/2605.26099

Источник: vc.ru

✅ Найденные теги: Cmu, Maryland, University, Новая, новости, статья, Языковым

Добавить комментарий

Новости других рубрик

Архив рубрики ~Лента новостей~: Краткое введение в объяснимость LLM Архив рубрики ~Лента новостей~: Трамп подписал более узкий указ о контроле за ИИ после возражений со стороны отрасли. Архив рубрики ~Лента новостей~: Повышение безопасности и расширение возможностей для молодежи посредством глобального лидерства | OpenAI Архив рубрики ~Лента новостей~: Содействие научному прогрессу посредством глобального партнерства и открытых ресурсов. Архив рубрики ~Лента новостей~: Как нам в Домклик LLM рефакторинг делала Архив рубрики ~Лента новостей~: В Австралии развивается отрасль, ориентированная на стареющее население, но сможет ли искусственный интеллект привнести больше гуманности в уход за пожилыми людьми? Архив рубрики ~Лента новостей~: Проблема, с которой сталкиваются основатели-одиночки при проектировании? Искусственный интеллект её решил. Архив рубрики ~Лента новостей~: [Перевод] «Квантовый» принцип, объясняющий, почему атомы устроены именно так