Image

Может ли ИИ действительно развить память, которая адаптируется так же, как наша?

Исследование титанов: новая архитектура, оснащающая студентов магистратуры прав человека памятью, которая обучается и обновляется во время тестирования.

Делиться

Чему мы учимся сегодня?

Такие усилия, как CoCoMix (Jihoon et al., 2025) ¹ от Meta, сделали концептуальное обучение, т. е. изучение концепций, стоящих за словами, а не просто предсказание следующего токена, реальностью, сделав их в высшей степени управляемыми и интерпретируемыми .

Но остается главный вопрос: даже концептуально блестящая модель может испытывать трудности с нюансами или фактическими проблемами припоминания после обучения, во время фактического развертывания. Вы можете задать, казалось бы, простой вопрос, например: «Ранее в нашем разговоре на 2 миллиона токенов, где мы обсуждали знаменитый растущий нос Пиноккио?» Независимо от того, насколько концептуально способен LLM, он не сможет ответить на этот простой вопрос, если ответ лежит за пределами его контекстного окна.

Поэтому возникает вопрос: можем ли мы оснастить эти интеллектуальные LLM адаптивной «памятью» или повысить производительность именно тогда, когда это необходимо — во время вывода?

1. Проблемы с текущим фундаментом: Трансформеры

Трансформеры (Васвани и др., 2017)² стали практически вездесущими в современном ландшафте ИИ. С момента их прорывного успеха они стали архитектурой, к которой обращаются во всех областях.

Еще в 2020 году ответом по умолчанию на любую проблему машинного обучения часто было «просто уделить ей внимание» — и, как ни странно, это сработало, часто превосходя самые современные модели. Задачи зрения? Используйте трансформаторы (Dosovitskiy et al., 2020) ³. Прогнозирование временных рядов? Снова трансформаторы (Zerveas et al., 2021) ⁴. Обработка естественного языка? Ну, трансформаторы практически определили ее ( Rogers et al., 202 1)⁵ .

Но по мере того, как наша зависимость от больших моделей усиливалась, а бюджеты на вычисления увеличивались, даже эта «универсальная» архитектура начала демонстрировать свои ограничения, и поэтому начались попытки еще больше расширить ее возможности.

Узкое место? Подход Attention «каждый говорит со всеми». Гениальный, но квадратично дорогой — представьте себе комнату с миллионом людей, где каждый человек должен помнить каждый разговор со всеми. Это ограничивает Transformers узкой «рабочей памятью», борясь с «долгосрочной памятью», необходимой для понимания огромных документов, поскольку ранняя информация просто исчезает .

За пределами контекстных ограничений ванильные трансформеры сталкиваются с другим фундаментальным препятствием: отсутствием адаптивности после обучения. Хотя они отлично справляются с применением своих обширных предобученных знаний для прогнозирования следующего токена — процесс сложных рассуждений и прогнозирования — это не то же самое, что настоящее обучение. Как Google Maps — хотя он и находит для вас «кратчайший путь», он забывает, что впереди строительство, и хочет, чтобы вы проехали через баррикады. С другой стороны, гид-человек показал бы вам альтернативный маршрут по переулку.

Эта неспособность «обучаться на лету» на основе данных, которые они в данный момент обрабатывают, представляет собой критическое ограничение для задач, требующих постоянной адаптации или запоминания нового опыта за пределами обучающей выборки.

Иллюстрация, объясняющая ограничения традиционного внимания Transformer. Сверху показано небольшое ограниченное «Окно внимания» с токенами t1-t6, указывающее, что старые токены, такие как t203, «забыты». Внизу визуализируется внимание «все ко всем» для 18 токенов, подчеркивая его квадратичную стоимость «O(n²)», сжигание вычислений и интенсивность ресурсов, что делает вывод о том, что «окно контекста не масштабируется до миллиона+».

Источник: towardsdatascience.com

Image Not Found
Трое людей используют смартфоны на складе, один в жилете, все с беспроводными наушниками.

Компания DeepL, известная своими функциями перевода текста, теперь хочет переводить и ваш голос.

Источник изображения: DeepL Компания DeepL, специализирующаяся на переводе и известная своими текстовыми инструментами, сегодня выпустила…

Апр 16, 2026
ideipro logotyp

Лучшая камера GoPro (2026): компактная, бюджетная, аксессуары

Вы — герой боевиков, и вам нужна соответствующая камера. Мы поможем вам разобраться во всех моделях, дадим рекомендации по аксессуарам и…

Апр 16, 2026
Родео: ковбой на скачущей лошади в загоне, стильная обработка изображения.

Почему мнения об ИИ так разделились

Стефани Арнетт/MIT Technology Review | Getty Images Эта статья первоначально появилась в The Algorithm, нашей еженедельной рассылке об…

Апр 16, 2026
ideipro logotyp

Вложенное древовидное пространство: геометрическая основа для кофилогении

arXiv:2604.05056v2 Тип объявления: replace-cross Аннотация: Вложенные (или согласованные) филогенетические деревья моделируют…

Апр 16, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых

ИдеиPRO