Архив рубрики ~Лента новостей~

GigaMemory: научи ИИ «помнить всё» с AI Journey Contest 2025

Мы всё чаще делегируем ИИ-ассистентам рабочую рутину и бытовые вопросы. Но во взаимодействии с ними есть существенная проблема: модели не помнят пользователя. Между сессиями теряются имя, контекст работы, желаемые ограничения и предпочтения, значительно влияющие на то, что и как стоит ответить пользователю. В итоге диалог каждый раз начинается «с нуля», а ответы звучат усреднённо. Это снижает эффективность и подрывает доверие: когда ассистент не помнит важное о вас, он превращается в поисковик с красивыми фразами.

Мы в команде RnD для B2C SberAI хотим это исправить. Представляем вашему вниманию задачу GigaMemory: global memory for LLM. Мы предлагаем участникам построить долгосрочную персональную память для языковой модели — систему, которая хранит, обновляет и надёжно извлекает знания о конкретном пользователе. Привычки, предпочтения, ограничения и прочие факты о пользователе, которые могут пригодиться в дальнейшем общении.

Цель — научить ИИ отвечать не «в среднем по больнице», а исходя из вашего реального контекста: от прошлых задач на работе до семейных дат и спортивных планов.

fe0082811c97ebc15368cf916dca409e

Задача

Соберите независимый модуль памяти, который:

  1. извлекает из диалогов факты о конкретном собеседнике: привычки, предпочтения, роли, навыки, события;

  2. хранит их в нужном для вас представлении (формат и тип данных, в которых хранится память, — произвольные);

  3. применяет память при генерировании ответа на вопрос о пользователе: от объёма и качества хранимой информации в памяти напрямую зависит корректность ответа.

Как считаем качество

Довольно часто бенчмарки по памяти содержат диалоги и сессии относительно небольшой длины. При этом современные LLM постепенно поддерживают всё большее контекстное окно, поэтому проверка навыка памяти на таких данных теряет смысл, ведь можно обойтись без каких-либо техник, просто помещая весь диалог в контекст генерации. Поэтому в конкурсе участникам предстоит проверять решение на данных, в которых история общения с пользователем может измеряться неделями и месяцами — более 100 тысяч токенов.

Мы проверяем модуль памяти на закрытом диалоговом датасете. Диалог нарезается на пары «реплика пользователя — ответ ассистента», и к каждой паре применяется ваш алгоритм памяти. В финале по этому же диалогу задаётся контрольный вопрос; модель отвечает с учётом сформированной памяти и ваших инструкций. Единственное требование: в пайплайне должна использоваться модель GigaChat Lite. Ваша цель: сделать так, чтобы память помогала давать семантически верные короткие ответы.

Метрика — Accuracy с подходом «LLM as a judge»: если по смыслу ваш ответ на вопрос по диалогу совпадает с эталоном, то он засчитывается. Публичный лидерборд формируется на основе валидационного набора, а итоговые результаты будут рассчитываться на тестовом наборе. Валидационный и тестовый наборы примерно равны по размеру. Подробное описание данных вы можете найти в разделе «Данные» на странице конкурса.

Идеи и направления: на что опереться

Стартовая точка — бейзлайн организаторов. Он работает в парадигме full context: просто накапливает весь диалог и передаёт его модели целиком. Это даёт быстрый вход в задачу, но качество заметно ограничено: порядка 8,5 %. Причина очевидна: по мере роста истории накапливается шум, релевантные детали теряются, а длина контекста упирается в пределы модели. Такой подход годится как «нулевой уровень», чтобы прощупать метрику и сформировать понимание задачи, но для реальной памяти он слишком медленный и неточный.

Следующая идея — память через Function Calling. Вместо того, чтобы сохранять исходный контекст, можно просить модель явным образом вычленять из реплик кандидаты в факты и преобразовывать текст в набор вызовов заранее определённых функций с фиксированными сигнатурами. «Обучение» может происходить за счёт few-shot примеров формата «текст → JSON-список вызовов» на закрытом словаре ключей. Если наблюдаются ошибки в выборе ключей, пропуски обязательных полей или галлюцинации аргументов, то для стабилизации соответствия схеме добавляется LoRA fine-tune на небольшом корпусе пар «набор реплик → набор вызовов». Небольшой дополнительной трудностью этого решения является то, что LoRA fine-tune потребуется запустить на MoE модели GigaChat Lite. Свой код по обучению и инференсу MoE LoRA модели мы дополнительно выкладываем в репозиторий.

Также популярен подход с RAG-памятью. В этом случае память трактуют как внешнее хранилище фактов с выборкой по запросу: из диалога извлекают элементы памяти, преобразуют в векторные представления и индексируют; при ответе формируется запрос, который возвращает только релевантные элементы, после чего они передаются в контекст модели. При этом хранилище можно организовать как в виде векторной базы, так и графа знаний; соответствующим образом идёт и поиск. Этот подход довольно гибок и универсален, но при этом не так прост в реализации: для качественного решения нужно погрузиться в LLM-агентов и работу с внешними базами данных. Предлагаем ознакомиться и вдохновиться следующими фреймворками: mem0, zep, cortex.

Подробности участия

Присоединиться к AI Journey Contest 2025 можно как самостоятельно, так и в составе команды — главное условие, чтобы все участники были старше 18 лет. Решения нужно загрузить на платформу DS Works до 30 октября 2025 года.

Общий призовой фонд — 2 000 000 ₽.

Информация об организаторе и полные правила конкурса — на сайте.

Ждём решения, которые поддерживают длинные диалоги, не теряются в хаосе фактов и учат ассистента помнить человека. Если хочется сделать ИИ по-настоящему внимательным — присоединяйтесь!

Источник: habr.com

✅ Найденные теги: GigaMemory:, новости
Читайте также
Архив рубрики ~Обо всем~ 7+ настроек конфиденциальности телефона, которые следует проверить и отключить как можно скорее, чтобы избежать раскрытия ваших личных данных. Архив рубрики ~Обо всем~ Привет, Siri! Теперь ты — основа для умных очков Apple. Архив рубрики ~Обо всем~ Помимо функции extract_text: два слоя PDF-файла, определяющие качество RAG. Архив рубрики ~Обо всем~ AT&T теперь предлагает дневные абонементы за 3 доллара на «безлимитный» мобильный интернет для iPad. Архив рубрики ~Обо всем~ Как смотреть Чемпионат мира по футболу FIFA 2026: 10 способов трансляции (включая бесплатные варианты) Архив рубрики ~Обо всем~ Байесовские сети и сети Маркова: интуитивно понятное руководство по структурированной неопределенности Архив рубрики ~Обо всем~ Премия EPICS от IEEE присуждается выдающимся студентам и преподавателям. Архив рубрики ~Обо всем~ Компания Waymo создала виртуального водителя-человека для улучшения своих роботакси. Архив рубрики ~Обо всем~ Мы создаём паноптикум с помощью краудсорсинга. Архив рубрики ~Обо всем~ Электромобили GM вскоре будут поддерживать больше типов общественных зарядных станций. Архив рубрики ~Обо всем~ Удаленная работа ухудшила психическое здоровье. Причиной стало увеличение времени в одиночестве Архив рубрики ~Обо всем~ Первый тест-драйв: Rivian R2 2027 года полностью меняет правила игры в мире электромобилей. Архив рубрики ~Обо всем~ Загадочный случай исчезновения носимого устройства Архив рубрики ~Обо всем~ Что произойдет, если Apple и Google объединятся для создания ИИ? 5 новых моделей. Архив рубрики ~Обо всем~ 7+ настроек конфиденциальности телефона, которые следует проверить и отключить как можно скорее, чтобы избежать раскрытия ваших личных данных. Архив рубрики ~Обо всем~ Привет, Siri! Теперь ты — основа для умных очков Apple. Архив рубрики ~Обо всем~ Помимо функции extract_text: два слоя PDF-файла, определяющие качество RAG. Архив рубрики ~Обо всем~ AT&T теперь предлагает дневные абонементы за 3 доллара на «безлимитный» мобильный интернет для iPad. Архив рубрики ~Обо всем~ Как смотреть Чемпионат мира по футболу FIFA 2026: 10 способов трансляции (включая бесплатные варианты) Архив рубрики ~Обо всем~ Байесовские сети и сети Маркова: интуитивно понятное руководство по структурированной неопределенности Архив рубрики ~Обо всем~ Премия EPICS от IEEE присуждается выдающимся студентам и преподавателям. Архив рубрики ~Обо всем~ Компания Waymo создала виртуального водителя-человека для улучшения своих роботакси. Архив рубрики ~Обо всем~ Мы создаём паноптикум с помощью краудсорсинга. Архив рубрики ~Обо всем~ Электромобили GM вскоре будут поддерживать больше типов общественных зарядных станций. Архив рубрики ~Обо всем~ Удаленная работа ухудшила психическое здоровье. Причиной стало увеличение времени в одиночестве Архив рубрики ~Обо всем~ Первый тест-драйв: Rivian R2 2027 года полностью меняет правила игры в мире электромобилей. Архив рубрики ~Обо всем~ Загадочный случай исчезновения носимого устройства Архив рубрики ~Обо всем~ Что произойдет, если Apple и Google объединятся для создания ИИ? 5 новых моделей.

Подписка на рассылку

Получайте свежие новости и идеи на почту. Без спама — только самое интересное.

Нажимая «Подписаться», вы соглашаетесь с политикой конфиденциальности.