Можно ли интегрировать с WordPress?

Да, мы используем REST API и Application Passwords — без передачи логина и пароля. Все публикации идут от имени автора.

Работает ли ИИ с Telegram?

Полностью. ИИ может как читать каналы, так и публиковать в ваш канал. Также подключаем inline-ботов и формы сбора лидов.

Сколько времени занимает настройка?

От 3 до 7 дней. Зависит от сложности интеграции и количества источников.

Есть ли бесплатный демо-доступ?

Да, мы запускаем 5–7 дневный демо-доступ с тестовыми данными, чтобы вы увидели систему в работе.

Безопасна ли система?

Да. Все данные хранятся изолированно. Мы не используем их для обучения моделей. Поддерживаем шифрование и резервное копирование.

Что входит в поддержку?

Обновление агентов, добавление источников, исправление ошибок, масштабирование. Поддержка 24/7 по Telegram или email.

Текст "Sufficient Context Hallucinate" на фоне ноутбука и лупы.

Более глубокое понимание процесса генерации текста с использованием методов поиска информации: роль достаточного контекста.

Мар 9, 2026 0

Содержание

d67a46a97c6b06553f57d0e13e096071

Мы вводим новое понятие достаточного контекста для исследования систем генерации с дополненной реальностью (RAG), разрабатываем метод классификации экземпляров, анализируем сбои в системах RAG и предлагаем способ уменьшения галлюцинаций.

Быстрые ссылки

Бумага
Подкаст Illuminate
Делиться
- Скопировать ссылку ×

Генерация с расширенным поиском (Retrieval augmented generation, RAG) улучшает работу больших языковых моделей (LLM), предоставляя им соответствующий внешний контекст. Например, при использовании системы RAG для решения задачи «вопрос-ответ» (QA) LLM получает контекст, который может представлять собой комбинацию информации из нескольких источников, таких как общедоступные веб-страницы, частные корпуса документов или графы знаний. В идеале LLM либо выдает правильный ответ, либо отвечает «Я не знаю», если отсутствует определенная ключевая информация.

Основная проблема систем RAG заключается в том, что они могут вводить пользователя в заблуждение, предоставляя искаженную (и, следовательно, неверную) информацию. Другая проблема состоит в том, что большинство предыдущих работ рассматривали только релевантность контекста запросу пользователя. Но мы считаем, что одной лишь релевантности контекста недостаточно для измерения — нам действительно нужно знать, предоставляет ли он достаточно информации для того, чтобы LLM ответил на вопрос, или нет.

В статье «Достаточный контекст: новый взгляд на системы генерации с дополненной информацией для поиска информации», опубликованной на ICLR 2025, мы изучаем идею «достаточного контекста» в системах генерации с дополненной информацией для поиска информации. Мы показываем, что можно определить, когда у системы генерации с дополненной информацией для поиска информации достаточно информации, чтобы дать правильный ответ на вопрос. Мы изучаем роль контекста (или его отсутствия) в точности фактов и разрабатываем способ количественной оценки достаточности контекста для систем генерации с дополненной информацией для поиска. Наш подход позволяет нам исследовать факторы, влияющие на производительность систем генерации с дополненной информацией для поиска информации, и анализировать, когда и почему они добиваются успеха или терпят неудачу.

Кроме того, мы использовали эти идеи для запуска функции LLM Re-Ranker в движке Vertex AI RAG. Наша функция позволяет пользователям переранжировать полученные фрагменты текста на основе их релевантности запросу, что приводит к улучшению показателей поиска (например, nDCG) и повышению точности системы RAG.

В системе RAG, LLM использует полученный контекст для предоставления ответа на заданный вопрос.

Основной концептуальный вклад: Достаточный контекст

Мы определяем контекст как «достаточный», если он содержит всю необходимую информацию для предоставления окончательного ответа на запрос, и как «недостаточный», если в нем отсутствует необходимая информация, он неполный, неубедительный или содержит противоречивую информацию. Например:

Ввод запроса: Код ошибки «Страница не найдена» назван в честь комнаты 404, в которой хранилась центральная база данных сообщений об ошибках в какой известной лаборатории?

Достаточный контекст: ошибка «Страница не найдена», часто отображаемая как код 404, названа в честь комнаты 404 в ЦЕРНе, Европейской организации ядерных исследований. Именно в этой комнате хранилась центральная база данных сообщений об ошибках, включая сообщение об ошибке, когда страница не найдена.
Недостаточный контекст: ошибка 404, или «Страница не найдена», указывает на то, что веб-сервер не может найти запрошенную страницу. Это может произойти по разным причинам, включая опечатки в URL-адресе, перемещение или удаление страницы, а также временные проблемы с веб-сайтом.

Второй контекст очень актуален для запроса пользователя, но он не отвечает на вопрос, и поэтому является недостаточным.

Разработка достаточного контекстного автора

Исходя из этого определения, мы сначала разрабатываем автоматический оценщик на основе LLM («авторейтер»), который оценивает пары запрос-контекст. Для оценки авторейтера мы сначала попросили экспертов проанализировать 115 примеров вопросов и контекстов, чтобы определить, достаточно ли контекста для ответа на вопрос. Это стало «золотым стандартом», с которым мы сравнивали оценки LLM. Затем мы попросили LLM оценить те же вопросы и контексты, где он выдал либо «истина» при достаточном контексте, либо «ложь» при недостаточном контексте.

Для оптимизации способности модели решать эту задачу мы также улучшили подсказку, используя различные стратегии, такие как цепочка рассуждений и предоставление одноразового примера. Затем мы измерили эффективность классификации на основе того, как часто метки «истина/ложь» модели LLM совпадали с эталонными метками.

Наш автоматический метод оценки (авторейтер) достаточности контекста. Мы используем модель LLM с подсказками для оценки примеров, состоящих из входного запроса и полученного контекста. Модель выдает бинарную метку «истина/ложь», которая обозначает достаточный или недостаточный контекст.

Используя нашу оптимизированную подсказку, мы показываем, что можем классифицировать достаточный контекст с очень высокой точностью (по крайней мере, в 93% случаев). Также оказалось, что наилучший из опробованных нами методов — это Gemini 1.5 Pro с подсказкой, без какой-либо тонкой настройки. В качестве базовых показателей мы показываем, что FLAMe (тонко настроенная PaLM 24B) немного хуже, чем Gemini, но может быть более эффективной с точки зрения вычислительных ресурсов альтернативой. Мы также сравниваем наш подход с методами, которые полагаются на ответы, основанные на истинном значении, такими как TRUE-NLI (тонко настроенная модель логического вывода), и методом, который проверяет, появляется ли истинное значение в контексте («Содержит истинное значение»). Gemini превосходит альтернативы, вероятно, потому что обладает лучшими способностями к пониманию языка.

Точность классификации достаточного контекста, где мы измеряем соответствие между различными автоматическими методами и метками, размеченными человеком.

Этот авторизатор позволяет масштабируемо маркировать экземпляры и анализировать ответы модели на основе достаточного и недостаточного контекста.

Ключевые выводы о системах RAG

Используя наш достаточный контекстный авторегрессионный алгоритм, мы проанализировали производительность различных моделей LLM и наборов данных, что привело к нескольким ключевым выводам:

Современные крупномасштабные модели: модели, такие как Gemini, GPT и Claude, как правило, отлично справляются с ответами на запросы при наличии достаточного контекста, но им не хватает способности распознавать и избегать генерации неверных ответов, когда предоставленного контекста недостаточно.
Меньшие по размеру модели с открытым исходным кодом: наш анализ выявляет специфическую проблему, заключающуюся в высоком уровне галлюцинаций и воздержания от ответа в моделях с открытым исходным кодом, даже когда контекст достаточен для правильного ответа на вопрос.
Недостаточный контекст : Иногда модели выдают правильные ответы, даже если мы оцениваем контекст как недостаточный. Это подчеркивает тот факт, что недостаточный контекст все еще может быть полезен. Например, он может восполнить пробелы в знаниях модели или прояснить неоднозначности в запросе.

Практические выводы: На основе полученных данных мы разработали рекомендации по улучшению систем RAG. Например, может быть полезно (i) добавить проверку достаточности перед генерацией, (ii) получить больше контекста или переранжировать полученные контексты, или (iii) настроить порог воздержания с учетом сигналов уверенности и контекста.

Погружение в исследования, лежащие в основе концепции достаточного контекста.

Наш анализ показывает, что несколько стандартных эталонных наборов данных содержат множество примеров с недостаточным контекстом. Мы рассматриваем три набора данных: FreshQA, HotPotQA и MuSiQue. Наборы данных с более высоким процентом примеров с достаточным контекстом, такие как FreshQA, как правило, представляют собой те, где контекст получен из вспомогательных документов, отобранных человеком.

Пример 182 из FreshQA — это вопрос : «Сколько пищевых аллергенов с обязательной маркировкой существует в Соединенных Штатах?» Это сложный вопрос, поскольку ответ — девять, после того как в 2023 году кунжут был добавлен в список. Вспомогательный документ в наборе данных — это статья Википедии о пищевых аллергиях, где в таблице в разделе «Регулирование маркировки» приведен список из девяти аллергенов с обязательной маркировкой.

Сравнение процента примеров с достаточным контекстом (ось Y) по трем наборам данных (ось X).

Добавление контекста приводит к усилению галлюцинаций.

Удивительное наблюдение заключается в том, что, хотя RAG в целом улучшает общую производительность, он парадоксальным образом снижает способность модели воздерживаться от ответа, когда это уместно. Введение дополнительного контекста, по-видимому, повышает уверенность модели, что приводит к большей склонности к галлюцинациям, а не к воздержанию.

Чтобы это понять, мы используем Gemini для оценки каждого ответа модели, сравнивая его с набором возможных истинных ответов. Мы классифицируем каждый ответ как «Правильный», «Галлюцинация» (т.е., неправильный ответ) или «Воздержание» (например, «Я не знаю»). При таком подходе мы обнаруживаем, например, что Gemma переходит от предоставления неправильных ответов на 10,2% вопросов без контекста к 66,1% при использовании недостаточного контекста.

Детальный анализ трех LLM в четырех различных условиях RAG.

Селективная генерация для уменьшения галлюцинаций

В качестве еще одного вклада мы разрабатываем структуру «селективной генерации», которая использует достаточную контекстную информацию для управления воздержанием от ответа. Мы рассматриваем следующие метрики: селективная точность измеряет долю правильных ответов модели среди тех, на которые она отвечает, а охват — это доля отвеченных вопросов (не воздержавшихся).

Наш подход к селективной генерации сочетает в себе достаточный контекстный сигнал с самооценкой уверенности модели, чтобы принимать обоснованные решения о том, когда следует воздержаться от ответа. Это более тонкий подход, чем просто воздержание от ответа всякий раз, когда контекст недостаточен, поскольку модели иногда могут давать правильные ответы даже при ограниченном контексте. Мы используем эти сигналы для обучения модели логистической регрессии для прогнозирования галлюцинаций. Затем мы устанавливаем пороговое значение компромисса между охватом и точностью, определяя, когда модель должна воздерживаться от ответа.

воспроизведение видео без звука зацикливание пауза видео без звука зацикливание включение звука видео выключение звука

Схема нашего метода селективной генерации для уменьшения галлюцинаций.

Мы используем два основных сигнала для воздержания:

Самооценка уверенности: Мы используем две стратегии: P (Истина) и P (Правильно). Стратегия P (Истина) включает в себя многократную выборку ответов и запрос к модели для присвоения каждому ответу метки «правильно» или «неправильно». Стратегия P (Правильно) используется для моделей, где обширные запросы обходятся дорого; она включает в себя получение ответа модели и ее оценочной вероятности правильности.
Сигнал достаточности контекста: Мы используем бинарную метку из авторегрессионной модели (FLAMe), чтобы указать, является ли контекст достаточным. Важно отметить, что нам не нужен истинный ответ для определения метки достаточности контекста, поэтому мы можем использовать этот сигнал при ответе на вопрос.

Наши результаты показывают, что такой подход обеспечивает лучший компромисс между точностью и охватом выборки по сравнению с использованием только уверенности модели. Используя метку достаточного контекста, мы можем повысить точность ответов модели на вопросы, иногда до 10% случаев.

Селективная точность (т.е. точность по доле отвеченных вопросов) против охвата (т.е. доли отвеченных вопросов).

Заключение

Наша работа дает новое понимание поведения LLM в системах RAG. Введя и используя концепцию достаточного контекста, мы разработали ценный инструмент для анализа и улучшения этих систем. Мы показали, что галлюцинации в системах RAG могут быть вызваны недостаточным контекстом, и продемонстрировали, что селективная генерация может смягчить эту проблему. В будущих исследованиях будет проанализировано, как различные методы поиска влияют на достаточность контекста, и изучено, как сигналы о качестве поиска могут быть использованы для улучшения модели после обучения.

Благодарности

Данная работа выполнена в сотрудничестве с Хейли Йорен (ведущий автор-студент), Цзяньи Чжаном, Чун-Сун Фернгом и Анкуром Тали. Мы благодарим Марка Симборга и Кимберли Шведе за помощь в написании и оформлении текста соответственно. Мы также благодарим Алишию Олсен за помощь в разработке графического оформления.

Источник: research.google

✅ Найденные теги: Более, Генерация, Информация, Контекст, новости, Поиск, текст

Метки:

ПРЕДЫДУЩАЯ ЗАПИСЬ

09.03.2026

Новая технология Self-Flow от Black Forest Labs делает обучение многомодальных моделей ИИ в 2,8 раза эффективнее.

СЛЕДУЮЩАЯ ЗАПИСЬ

09.03.2026

Теперь и тележки умные.

Роботы-курьеры на улице в ряд, люди управляют ими в городе.

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ
Отменить ответ

Для отправки комментария вам необходимо авторизоваться.

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

Еще новости рубрики

Архив рубрики ~Обо всем~

Фантазии

Июл 2, 2024

Архив рубрики ~Обо всем~

Мировоззрение

Июл 2, 2024

Архив рубрики ~Обо всем~

Влияние выдумщиков и фантазеров на развитие…

Июл 2, 2024

Архив рубрики ~Обо всем~

Нет ничего невозможного

Июл 2, 2024

Присоединяйтесь
к нам в

TELEGRAM

галерея

Маску не удалось заблокировать закон Калифорнии о раскрытии данных, который, как он опасается, погубит xAI.

Код JavaScript и комментарии об аутентификации и безопасности сессии.

Три портативных SSD в черных корпусах с красными акцентами.

Изображение человека в наушниках в футуристической обстановке.

Люди в музее динозавров, крупный план мешка с деньгами в стеклянной витрине.

Группа военнослужащих в белой форме на ступенях перед зданием.

Роботизированная рука держит весы, символизируя баланс технологий и правосудия.

НОВОСТИ ДРУГИХ РУБРИК

Архив рубрики ~Лента новостей~

Маску не удалось заблокировать закон Калифорнии о раскрытии данных, который, как он опасается, погубит xAI.

Маск не может убедить судью в том, что общественности безразлично, откуда берутся данные для обучения ИИ. Источник: Icon Sportswire / Участник | Icon Sportswire Источник: Icon Sportswire / Участник | Icon Sportswire Настройки текста Текст рассказа Размер…

ЧИТАТЬ

Мар 10, 2026

Архив рубрики ~Лента новостей~

Компания Anthropic запускает инструмент для проверки кода, предназначенный для предотвращения потока кода, сгенерированного искусственным интеллектом.

Источник изображения: Anthropic В программировании обратная связь от коллег имеет решающее значение для выявления ошибок на ранних стадиях, поддержания согласованности кода и повышения общего качества программного обеспечения. Распространение «вайб-кодирования» — использования инструментов искусственного интеллекта, которые принимают инструкции,…

ЧИТАТЬ

Мар 10, 2026

Архив рубрики ~Лента новостей~

Лучшие будильники на рассвете (2026): Lumie, Hatch, WiiM

Я никогда не была «жаворонком». Этот прикроватный гаджет — единственное, что когда-либо изменило мое отношение к этому. Источник: www.wired.com ✅ Найденные теги: Hatch, Lumie, WiiM, Будильники, Лучшие, новости, РассветПохожие записиКомпания Anthropic запускает инструмент для проверки кода, предназначенный…

ЧИТАТЬ

Мар 10, 2026

Архив рубрики ~Лента новостей~

Загрузка: Землетрясения и ИИ для нанесения ударов по Ирану

Это сегодняшний выпуск The Download, нашей ежедневной новостной рассылки, которая предоставляет вам ежедневную порцию событий в мире технологий. Прислушайтесь к грохочущему, тайному саундтреку Земли. Грохот откалывающегося ледника. Треск лесного пожара. Рев надвигающегося штормового фронта. Это звуки живой…

ЧИТАТЬ

Мар 9, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых

ИдеиPRO

Более глубокое понимание процесса генерации текста с использованием методов поиска информации: роль достаточного контекста.

Быстрые ссылки

Основной концептуальный вклад: Достаточный контекст

Разработка достаточного контекстного автора

Ключевые выводы о системах RAG

Погружение в исследования, лежащие в основе концепции достаточного контекста.

Добавление контекста приводит к усилению галлюцинаций.

Селективная генерация для уменьшения галлюцинаций

Заключение

Благодарности

Похожие записи

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ Отменить ответ

Еще новости рубрики

Присоединяйтесь к нам в

Рубрики

галерея

НОВОСТИ ДРУГИХ РУБРИК

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ
Отменить ответ

Присоединяйтесь
к нам в