Image

Может ли ИИ действительно развить память, которая адаптируется так же, как наша?

Исследование титанов: новая архитектура, оснащающая студентов магистратуры прав человека памятью, которая обучается и обновляется во время тестирования.

Делиться

21b2e2d4da67f1a5bfff6c6adb9e1aa3

Чему мы учимся сегодня?

Такие усилия, как CoCoMix (Jihoon et al., 2025) ¹ от Meta, сделали концептуальное обучение, т. е. изучение концепций, стоящих за словами, а не просто предсказание следующего токена, реальностью, сделав их в высшей степени управляемыми и интерпретируемыми .

Но остается главный вопрос: даже концептуально блестящая модель может испытывать трудности с нюансами или фактическими проблемами припоминания после обучения, во время фактического развертывания. Вы можете задать, казалось бы, простой вопрос, например: «Ранее в нашем разговоре на 2 миллиона токенов, где мы обсуждали знаменитый растущий нос Пиноккио?» Независимо от того, насколько концептуально способен LLM, он не сможет ответить на этот простой вопрос, если ответ лежит за пределами его контекстного окна.

Поэтому возникает вопрос: можем ли мы оснастить эти интеллектуальные LLM адаптивной «памятью» или повысить производительность именно тогда, когда это необходимо — во время вывода?

1. Проблемы с текущим фундаментом: Трансформеры

Трансформеры (Васвани и др., 2017)² стали практически вездесущими в современном ландшафте ИИ. С момента их прорывного успеха они стали архитектурой, к которой обращаются во всех областях.

Еще в 2020 году ответом по умолчанию на любую проблему машинного обучения часто было «просто уделить ей внимание» — и, как ни странно, это сработало, часто превосходя самые современные модели. Задачи зрения? Используйте трансформаторы (Dosovitskiy et al., 2020) ³. Прогнозирование временных рядов? Снова трансформаторы (Zerveas et al., 2021) ⁴. Обработка естественного языка? Ну, трансформаторы практически определили ее ( Rogers et al., 202 1)⁵ .

Но по мере того, как наша зависимость от больших моделей усиливалась, а бюджеты на вычисления увеличивались, даже эта «универсальная» архитектура начала демонстрировать свои ограничения, и поэтому начались попытки еще больше расширить ее возможности.

Узкое место? Подход Attention «каждый говорит со всеми». Гениальный, но квадратично дорогой — представьте себе комнату с миллионом людей, где каждый человек должен помнить каждый разговор со всеми. Это ограничивает Transformers узкой «рабочей памятью», борясь с «долгосрочной памятью», необходимой для понимания огромных документов, поскольку ранняя информация просто исчезает .

За пределами контекстных ограничений ванильные трансформеры сталкиваются с другим фундаментальным препятствием: отсутствием адаптивности после обучения. Хотя они отлично справляются с применением своих обширных предобученных знаний для прогнозирования следующего токена — процесс сложных рассуждений и прогнозирования — это не то же самое, что настоящее обучение. Как Google Maps — хотя он и находит для вас «кратчайший путь», он забывает, что впереди строительство, и хочет, чтобы вы проехали через баррикады. С другой стороны, гид-человек показал бы вам альтернативный маршрут по переулку.

Эта неспособность «обучаться на лету» на основе данных, которые они в данный момент обрабатывают, представляет собой критическое ограничение для задач, требующих постоянной адаптации или запоминания нового опыта за пределами обучающей выборки.

Иллюстрация, объясняющая ограничения традиционного внимания Transformer. Сверху показано небольшое ограниченное «Окно внимания» с токенами t1-t6, указывающее, что старые токены, такие как t203, «забыты». Внизу визуализируется внимание «все ко всем» для 18 токенов, подчеркивая его квадратичную стоимость «O(n²)», сжигание вычислений и интенсивность ресурсов, что делает вывод о том, что «окно контекста не масштабируется до миллиона+».

Источник: towardsdatascience.com

✅ Найденные теги: Может, новости
Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Фото сгенерированных лиц: исследование показывает, что люди не могут отличить настоящие лица от сгенерированных
Нейросети построили капитализм за трое суток: 100 агентов Claude заперли…
Скетч: цифровой осьминог и виртуальный мир внутри компьютера с человечком.
Сцена с жестами пальцами, где один жест символизирует "VPN", а другой "KHP".
‼️Paramount купила Warner Bros. Discovery — сумма сделки составила безумные…
Скриншот репозитория GitHub "Claude Scientific Skills" AI для научных исследований.
Структура эффективного запроса Claude с элементами задачи, контекста и референса.
Эскиз и готовая веб-страница платформы для AI-дизайна в современном темном режиме.
ideipro logotyp
Image Not Found
Звёздное небо с галактиками и туманностями, космос, Вселенная, астрофотография.

Система оповещения обсерватории Рубина отправила 800 000 сигналов в первую ночь наблюдений.

Астрономы будут получать оповещения о небесных явлениях в течение нескольких минут после их обнаружения. Теренс О'Брайен, редактор раздела «Выходные». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной…

Мар 2, 2026
Женщина с длинными тёмными волосами в синем свете, нейтральный фон.

Расследование в отношении 61-фунтовой машины, которая «пожирает» пластик и выплевывает кирпичи.

Обзор компактного пресса для мягкого пластика Clear Drop — и что будет дальше. Шон Холлистер, старший редактор Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего…

Мар 2, 2026
Черный углеродное волокно с текстурой плетения, отражающий свет.

Материал будущего: как работает «бессмертный» композит

Учёные из Университета штата Северная Каролина представили композит нового поколения, способный самостоятельно восстанавливаться после серьёзных повреждений.  Речь идёт о модифицированном армированном волокном полимере (FRP), который не просто сохраняет прочность при малом весе, но и способен «залечивать» внутренние…

Мар 2, 2026
Круглый экран с изображением замка и горы, рядом электронная плата.

Круглый дисплей Waveshare для креативных проектов

Круглый 7-дюймовый сенсорный дисплей от Waveshare создан для разработчиков и дизайнеров, которым нужен нестандартный экран.  Это IPS-панель с разрешением 1 080×1 080 пикселей, поддержкой 10-точечного ёмкостного сенсора, оптической склейкой и защитным закалённым стеклом, выполненная в круглом форм-факторе.…

Мар 2, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых