GigaMemory: научи ИИ «помнить всё» с AI Journey Contest 2025

17.10.2025 ideipro.ru

Мы всё чаще делегируем ИИ-ассистентам рабочую рутину и бытовые вопросы. Но во взаимодействии с ними есть существенная проблема: модели не помнят пользователя. Между сессиями теряются имя, контекст работы, желаемые ограничения и предпочтения, значительно влияющие на то, что и как стоит ответить пользователю. В итоге диалог каждый раз начинается «с нуля», а ответы звучат усреднённо. Это снижает эффективность и подрывает доверие: когда ассистент не помнит важное о вас, он превращается в поисковик с красивыми фразами.

Мы в команде RnD для B2C SberAI хотим это исправить. Представляем вашему вниманию задачу GigaMemory: global memory for LLM. Мы предлагаем участникам построить долгосрочную персональную память для языковой модели — систему, которая хранит, обновляет и надёжно извлекает знания о конкретном пользователе. Привычки, предпочтения, ограничения и прочие факты о пользователе, которые могут пригодиться в дальнейшем общении.

Цель — научить ИИ отвечать не «в среднем по больнице», а исходя из вашего реального контекста: от прошлых задач на работе до семейных дат и спортивных планов.

Задача

Соберите независимый модуль памяти, который:

извлекает из диалогов факты о конкретном собеседнике: привычки, предпочтения, роли, навыки, события;
хранит их в нужном для вас представлении (формат и тип данных, в которых хранится память, — произвольные);
применяет память при генерировании ответа на вопрос о пользователе: от объёма и качества хранимой информации в памяти напрямую зависит корректность ответа.

Как считаем качество

Довольно часто бенчмарки по памяти содержат диалоги и сессии относительно небольшой длины. При этом современные LLM постепенно поддерживают всё большее контекстное окно, поэтому проверка навыка памяти на таких данных теряет смысл, ведь можно обойтись без каких-либо техник, просто помещая весь диалог в контекст генерации. Поэтому в конкурсе участникам предстоит проверять решение на данных, в которых история общения с пользователем может измеряться неделями и месяцами — более 100 тысяч токенов.

Мы проверяем модуль памяти на закрытом диалоговом датасете. Диалог нарезается на пары «реплика пользователя — ответ ассистента», и к каждой паре применяется ваш алгоритм памяти. В финале по этому же диалогу задаётся контрольный вопрос; модель отвечает с учётом сформированной памяти и ваших инструкций. Единственное требование: в пайплайне должна использоваться модель GigaChat Lite. Ваша цель: сделать так, чтобы память помогала давать семантически верные короткие ответы.

Метрика — Accuracy с подходом «LLM as a judge»: если по смыслу ваш ответ на вопрос по диалогу совпадает с эталоном, то он засчитывается. Публичный лидерборд формируется на основе валидационного набора, а итоговые результаты будут рассчитываться на тестовом наборе. Валидационный и тестовый наборы примерно равны по размеру. Подробное описание данных вы можете найти в разделе «Данные» на странице конкурса.

Идеи и направления: на что опереться

Стартовая точка — бейзлайн организаторов. Он работает в парадигме full context: просто накапливает весь диалог и передаёт его модели целиком. Это даёт быстрый вход в задачу, но качество заметно ограничено: порядка 8,5 %. Причина очевидна: по мере роста истории накапливается шум, релевантные детали теряются, а длина контекста упирается в пределы модели. Такой подход годится как «нулевой уровень», чтобы прощупать метрику и сформировать понимание задачи, но для реальной памяти он слишком медленный и неточный.

Следующая идея — память через Function Calling. Вместо того, чтобы сохранять исходный контекст, можно просить модель явным образом вычленять из реплик кандидаты в факты и преобразовывать текст в набор вызовов заранее определённых функций с фиксированными сигнатурами. «Обучение» может происходить за счёт few-shot примеров формата «текст → JSON-список вызовов» на закрытом словаре ключей. Если наблюдаются ошибки в выборе ключей, пропуски обязательных полей или галлюцинации аргументов, то для стабилизации соответствия схеме добавляется LoRA fine-tune на небольшом корпусе пар «набор реплик → набор вызовов». Небольшой дополнительной трудностью этого решения является то, что LoRA fine-tune потребуется запустить на MoE модели GigaChat Lite. Свой код по обучению и инференсу MoE LoRA модели мы дополнительно выкладываем в репозиторий.

Также популярен подход с RAG-памятью. В этом случае память трактуют как внешнее хранилище фактов с выборкой по запросу: из диалога извлекают элементы памяти, преобразуют в векторные представления и индексируют; при ответе формируется запрос, который возвращает только релевантные элементы, после чего они передаются в контекст модели. При этом хранилище можно организовать как в виде векторной базы, так и графа знаний; соответствующим образом идёт и поиск. Этот подход довольно гибок и универсален, но при этом не так прост в реализации: для качественного решения нужно погрузиться в LLM-агентов и работу с внешними базами данных. Предлагаем ознакомиться и вдохновиться следующими фреймворками: mem0, zep, cortex.

Подробности участия

Присоединиться к AI Journey Contest 2025 можно как самостоятельно, так и в составе команды — главное условие, чтобы все участники были старше 18 лет. Решения нужно загрузить на платформу DS Works до 30 октября 2025 года.

Общий призовой фонд — 2 000 000 ₽.

Информация об организаторе и полные правила конкурса — на сайте.

Ждём решения, которые поддерживают длинные диалоги, не теряются в хаосе фактов и учат ассистента помнить человека. Если хочется сделать ИИ по-настоящему внимательным — присоединяйтесь!

Источник: habr.com

Оцените материал:

GigaMemory: научи ИИ «помнить всё» с AI Journey Contest 2025

Задача

Как считаем качество

Идеи и направления: на что опереться

Подробности участия

🤖 Нельсон AI

Гайды, руководства и полезные статьи

Задача

Как считаем качество

Идеи и направления: на что опереться

Подробности участия

Похожие записи

Похожие записи

Порядок без лишних проводов: сетевой фильтр от Anker

Тепловые насосы Gradient получили новые интеллектуальные функции, позволяющие модернизировать старые здания.

Космические карты ежей: исследователи Кембриджского университета используют спутниковые снимки для определения мест их обитания

Присоединяйтесь и подпишитесь на рассылку самых свежих новостей по Email

🤖 Нельсон AI