Titans + MIRAS: Помощь ИИ в формировании долговременной памяти
Мы представляем архитектуру Titans и фреймворк MIRAS, которые позволяют моделям ИИ работать намного быстрее и обрабатывать огромные объемы контекста, обновляя свою основную память во время активного выполнения.
Быстрые ссылки
- Бумага Титанов
- Статья MIRAS
- Делиться
Архитектура Transformer произвела революцию в моделировании последовательностей благодаря внедрению механизма внимания, с помощью которого модели анализируют предыдущие входные данные, чтобы определить приоритетность релевантных входных данных. Однако вычислительные затраты резко возрастают с увеличением длины последовательности, что ограничивает возможности масштабирования моделей на основе Transformer для чрезвычайно длинных контекстов, таких как те, которые необходимы для понимания всего документа или геномного анализа.
Научное сообщество изучало различные подходы к решению задач, такие как эффективные линейные рекуррентные нейронные сети (RNN) и модели пространства состояний (SSM), например, Mamba-2. Эти модели обеспечивают быстрое линейное масштабирование за счет сжатия контекста до фиксированного размера. Однако такое сжатие фиксированного размера не может адекватно улавливать богатую информацию в очень длинных последовательностях.
В двух новых статьях, Titans и MIRAS , мы представляем архитектуру и теоретическую модель, которые сочетают в себе скорость рекуррентных нейронных сетей (RNN) с точностью трансформеров. Titans — это конкретная архитектура (инструмент), а MIRAS — теоретическая основа (модель) для обобщения этих подходов. Вместе они развивают концепцию запоминания во время тестирования — способность модели ИИ поддерживать долговременную память за счет включения более мощных «неожиданных» метрик (т.е. неожиданных фрагментов информации) во время работы модели и без специального переобучения в автономном режиме.
Как показали исследования Titans, платформа MIRAS вносит существенный сдвиг в сторону адаптации в реальном времени. Вместо сжатия информации в статическое состояние, эта архитектура активно обучается и обновляет свои параметры по мере поступления данных. Этот важнейший механизм позволяет модели мгновенно включать новые, специфические детали в свои основные знания.
Титаны: освоение нового контекста на ходу
Для эффективной системы обучения необходимы отдельные, но взаимосвязанные модули памяти, отражающие разделение кратковременной и долговременной памяти в человеческом мозге.
В то время как механизмы внимания превосходно справляются с точной кратковременной памятью, Titans представляет новый нейронный модуль долговременной памяти, который, в отличие от памяти на основе векторов или матриц фиксированного размера в традиционных рекуррентных нейронных сетях, действует как глубокая нейронная сеть (а именно, многослойный перцептрон). Этот модуль памяти обеспечивает значительно более высокую выразительную мощность, позволяя модели обобщать большие объемы информации, не теряя важного контекста. Модель не просто делает заметки; она понимает и синтезирует всю историю целиком.
Важно отметить, что Titans не просто пассивно хранит данные. Он активно учится распознавать и сохранять важные взаимосвязи и концептуальные темы, соединяющие элементы во всем входном потоке. Ключевым аспектом этой способности является то, что мы называем «метрикой неожиданности». В психологии человека известно, что мы быстро и легко забываем рутинные, ожидаемые события, но помним то, что нарушает этот шаблон — неожиданные, удивительные или очень эмоциональные события.
Обзор архитектуры Titans (MAC). Она использует долговременную память для сжатия прошлых данных, а затем включает полученную сводку в контекст и передает её механизму внимания. Затем механизм внимания может решить, нужно ли ему обрабатывать сводку прошлых данных или нет.
В контексте игры Titans, «показатель неожиданности» — это когда модель обнаруживает значительную разницу между тем, что она помнит в данный момент, и тем, что ей сообщает новый входной сигнал.
- Низкий уровень неожиданности : если новое слово — «кот», а в памяти модели уже ожидается слово, обозначающее животное, то градиент (удивлённость) низкий. Модель может спокойно пропустить запоминание слова «кот» в своей постоянной долговременной памяти.
- Высокий уровень неожиданности : если в памяти модели хранится информация о важном финансовом отчете, а на вход поступает изображение банановой кожуры (неожиданное событие), то градиент (уровень неожиданности) будет очень высоким. Это сигнализирует о том, что новый входной сигнал важен или аномален, и его необходимо приоритезировать для постоянного хранения в модуле долговременной памяти.
Модель использует этот внутренний сигнал ошибки (градиент) как математический эквивалент фразы: «Это неожиданно и важно!». Это позволяет архитектуре Titans выборочно обновлять свою долговременную память только самой новой и нерелевантной информацией, обеспечивая тем самым быструю и эффективную работу всего процесса.
В Titans этот механизм усовершенствован за счет включения двух важных элементов:
- Импульс : Модель учитывает как «мгновенную неожиданность» (текущий входной сигнал), так и «прошлую неожиданность» (недавний контекстный поток). Это гарантирует, что соответствующая последующая информация также будет учтена, даже если эти токены сами по себе не являются неожиданными.
- Забывание (снижение веса) : Для управления ограниченной емкостью памяти при работе с чрезвычайно длинными последовательностями данных, Титаны используют адаптивный механизм снижения веса. Он действует как вентиль забывания, позволяя модели отбрасывать информацию, которая больше не нужна.
MIRAS: Единый взгляд на моделирование последовательностей
Все крупные прорывы в моделировании последовательностей — от современных трансформеров до новых, молниеносно быстрых линейных рекуррентных нейронных сетей — по сути, представляют собой одно и то же: чрезвычайно сложный модуль ассоциативной памяти.
Таким образом, уникальность и практичность MIRAS заключается в его подходе к моделированию ИИ. Вместо рассмотрения разнообразных архитектур, он видит различные методы решения одной и той же проблемы: эффективное объединение новой информации со старыми воспоминаниями без потери основных концепций .
MIRAS определяет модель последовательности посредством четырех ключевых проектных решений:
- Архитектура памяти : структура, которая хранит информацию (например, вектор, матрица или глубокий многослойный перцептрон, как в игре Titans).
- Смещение внимания : внутренняя цель обучения, которую оптимизирует модель и которая определяет, чему она отдает приоритет.
- Механизм сохранения памяти : Регуляризатор памяти. MIRAS переосмысливает «механизмы забывания» как специфические формы регуляризации, которые уравновешивают новое обучение с сохранением прошлых знаний.
- Алгоритм работы с памятью : алгоритм оптимизации, используемый для обновления памяти.
воспроизведение видео без звука зацикливание пауза видео без звука зацикливание включение звука видео выключение звука
Обзор фреймворка MIRAS. В фреймворке MIRAS мы стремимся изучить ассоциативную память, отображающую ключи и значения. Для каждого токена модуль памяти внутренне оптимизирует свою внутреннюю направленность внимания, используя при этом свой вентиль удержания, чтобы гарантировать, что он не отклоняется от своего предыдущего состояния. Процесс оптимизации осуществляется с помощью градиентного оптимизатора.
Выход за рамки парадигмы среднеквадратичной ошибки
Практически все успешные существующие модели последовательностей используют среднеквадратичную ошибку (MSE) или скалярное произведение сходства как для смещения, так и для сохранения результатов. Такая зависимость может сделать модели чувствительными к выбросам и ограничить их выразительные возможности.
MIRAS преодолевает это ограничение, предоставляя генеративную структуру для исследования более широкого пространства проектирования, основанного на литературе по оптимизации и статистике. Это позволяет создавать новые архитектуры с неевклидовыми целевыми функциями и регуляризацией.
Используя MIRAS, мы создали три конкретные модели, не требующие внимания:
- YAAD : Мы разработали этот вариант MIRAS таким образом, чтобы он был менее чувствителен к серьезным ошибкам или «выбросам» (например, к единичной опечатке в большом документе). Он использует более мягкий математический штраф (функция Хубера) за ошибки, поэтому не реагирует чрезмерно на единичные проблемы. Это делает модель более устойчивой, когда входные данные неструктурированы или непоследовательны.
- MONETA : Эта модель исследует использование более сложных и строгих математических штрафов (называемых обобщенными нормами). Она изучает, может ли использование этих более дисциплинированных правил как для того, на что модель обращает внимание, так и для того, что она забывает, привести к созданию более мощной и стабильной системы долговременной памяти в целом.
- MEMORA : Эта модель фокусируется на достижении максимально возможной стабильности памяти, заставляя ее работать как строгое отображение вероятностей. Используя это ограничение, она гарантирует, что при каждом обновлении состояния памяти изменения контролируются и сбалансированы. Это обеспечивает чистый и стабильный процесс интеграции новой информации. Практически все успешные существующие модели последовательностей используют среднеквадратичную ошибку (MSE) или скалярное произведение сходства как для смещения, так и для сохранения. Эта зависимость может сделать модели чувствительными к выбросам и ограничить их выразительные возможности.
Эксперименты и результаты
Мы провели тщательное сравнение Titans, а также вариантов MIRAS (YAAD, MONETA, MEMORA) с ведущими архитектурами, включая Transformer++, Mamba-2 и Gated DeltaNet. Мы также подтвердили универсальность, протестировав Titans на задачах геномного моделирования (ДНК) и прогнозирования временных рядов, доказав, что архитектура эффективно обобщается за пределы текстового анализа.
Как на стандартных наборах данных для языкового моделирования (C4, WikiText), так и в задачах на рассуждение без предварительного обучения (HellaSwag, PIQA), наши модели неизменно демонстрировали более высокую точность и степень удивления (показатель того, насколько удивлен пользователь языкового моделирования при просмотре текста).
Сила глубокой памяти
Исследования методом абляции ясно показывают, что глубина архитектуры памяти имеет решающее значение. При сравнении модулей долговременной памяти одинакового размера, но разной глубины, модули с более глубокой памятью неизменно демонстрируют более низкую перплексию при моделировании языка. Кроме того, они обладают лучшими масштабируемыми свойствами, сохраняя производительность даже при значительном увеличении длины последовательности.
Влияние глубины памяти на перплексию в масштабах параметров 360M и 760M.
Языковое моделирование и эффективность
В задачах языкового моделирования и логического мышления архитектуры Titans превосходят современные линейные рекуррентные модели (такие как Mamba-2 и Gated DeltaNet) и базовые модели Transformer++ сопоставимых размеров. Новые варианты MIRAS (MONETA, YAAD, MEMORA) также демонстрируют улучшенные результаты по сравнению с этими базовыми моделями, подтверждая преимущества использования надежных механизмов оптимизации, не связанных с MSE. Важно отметить, что эти модели поддерживают эффективное, распараллеливаемое обучение и высокую скорость линейного вывода.
Чрезвычайно глубокое запоминание контекста
Наиболее существенным преимуществом этих новых архитектур является их способность обрабатывать чрезвычайно длинные контексты. Это демонстрируется в бенчмарке BABILong, задаче, требующей рассуждений на основе фактов, распределенных в чрезвычайно длинных документах. В этой сложной ситуации Titans превосходит все базовые модели, включая такие очень большие модели, как GPT-4, несмотря на значительно меньшее количество параметров. Titans также демонстрирует способность эффективно масштабироваться до размеров контекстных окон, превышающих 2 миллиона токенов.
Результаты выполнения заданий Титанами в условиях крайне длительного контекстного мышления.
Заключение
Внедрение Titans и фреймворка MIRAS знаменует собой значительный прогресс в моделировании последовательностей. Используя глубокие нейронные сети в качестве модулей памяти, которые учатся запоминать по мере поступления данных, эти подходы преодолевают ограничения рекуррентных состояний фиксированного размера. Кроме того, MIRAS обеспечивает мощное теоретическое объединение, раскрывая связь между онлайн-оптимизацией, ассоциативной памятью и архитектурным проектированием. Выходя за рамки стандартной евклидовой парадигмы, это исследование открывает двери для нового поколения моделей последовательностей, которые сочетают в себе эффективность рекуррентных нейронных сетей с выразительной мощностью, необходимой для эры ИИ с длинным контекстом.
Источник: research.google

Добавить комментарий
Для отправки комментария вам необходимо авторизоваться.