Image

Почему маленькие ошибки больших языковых моделей важнее, чем кажутся

be1a0d46473c087b6e603c1169ee8e38

Даже самые сильные LLM иногда уверенно произносят факты, которых нет в источниках. В ответах на вопросы достаточно одного неверного слова, чтобы исказить смысл. Большинство проверок сегодня даёт лишь общий вердикт для всего ответа, и почти всё — по‑английски. Авторам PsiloQA было важно сделать наоборот: покрыть 14 языков и научиться находить не просто «неверный ответ», а точные фрагменты текста, где модель ошиблась.

Как устроен PsiloQA

Команда построила полностью автоматизированный пайплайн. Сначала GPT‑4o по фрагментам Википедии создаёт вопросы и эталонные короткие ответы разной сложности. Затем десятки разных LLM отвечают на те же вопросы уже без контекста — так проще спровоцировать уверенные, но необоснованные утверждения. После этого GPT‑4o сравнивает гипотезу модели с эталоном и исходным фрагментом и помечает точные участки ответа, где есть несоответствие. В финале работает фильтрация: удаляются странные вопросы, отказы отвечать и технические огрехи разметки. В итоге остаётся большой чистый корпус реальных, а не искусственно вставленных, ошибок.

Конвейер PsiloQA: от генерации многоязычных пар вопрос–ответ по Википедии до ответов без контекста, точечной разметки ошибок на уровне спанов и фильтрации низкокачественных случаев
Конвейер PsiloQA: от генерации многоязычных пар вопрос–ответ по Википедии до ответов без контекста, точечной разметки ошибок на уровне спанов и фильтрации низкокачественных случаев

Что внутри датасета

PsiloQA — это 14 языков, 63,8 тысяч примеров для тренировки и почти 3 тысячи в тесте. Английский здесь не доминирует: есть хинди, финский, каталонский, китайский, шведский, чешский, фарси, испанский, баскский, французский, итальянский, арабский, немецкий. Часто встречаются короткие галлюцинации длиной до нескольких слов — ровно та гранулярность, которую важно видеть в продуктивных сценариях. По тематикам лидируют география и спорт, но длинный хвост покрывает множество областей.

Пара иллюстративных ошибок: модель уверенно называет, что Лиллиан Рихтер родилась в 1932, хотя в тексте стоит 1915; «Blackpool Stadium» вместо правильного Bloomfield Road; «Amanita rubescens-Team» вместо Russula font-queri. Такие примеры показывают, почему нам нужна разметка на уровне спанов: ошибка в одном токене — и факт уже неверный.

Как сравнивали методы

Авторы проверили три класса подходов:

  • Оценка неопределённости по токенам. Это простые и быстрые методы, которые пытаются уловить неуверенность модели.

  • Энкодеры, обученные помечать неверные спаны на входе «контекст — вопрос — ответ». В работе обучали ModernBERT и многоязычный mmBERT.

  • Подходы с внешними знаниями и LLM‑верификаторами. Например, извлечение фактов и проверка с помощью GPT‑4o.

Оценивали по двум метрикам: площадь под кривой precision–recall (AP) и Intersection over Union (IoU) спанов на уровне символов. Первая показывает, насколько метод хорошо различает корректные и некорректные фрагменты, вторая — насколько точно попадает в границы ошибки.

Что получилось на практике

  • Быстрые меры неопределённости дают средний результат: они улавливают часть проблем, но плохо держат точные границы.

  • Самыми точными оказались энкодеры, специально обученные на PsiloQA. Особенно сильным вышел мультиязычный mmBERT: в 12 из 14 языков он лучший по обеим метрикам. Это подтверждает, что предобучение на многих языках помогает видеть ошибки даже там, где данные достаточно редки.

  • LLM‑проверка фактов с внешним знанием иногда даёт высокий AP, но страдает по IoU — сложно аккуратно очертить место ошибки.

Выяснилось и то, что мультиязычное обучение лучше, чем учить отдельную модель на каждый язык: один mmBERT переносится надёжнее и на близкородственные, и на отличные по письму языки. Ещё важнее — перенос за пределы самого PsiloQA. Модель, обученная только на английской части PsiloQA, существенно обогнала аналоги на англоязычных бенчмарках вроде Mu‑SHROOM и HalluEntity. При этом стоимость автоматической разметки PsiloQA составила около 535 долларов против примерно 3000 на сопоставимый объём ручной англоязычной разметки в RAGTruth.

Почему это важно

PsiloQA показывает, что можно масштабно и дёшево получать разметку реальных ошибок LLM на уровне отдельных фрагментов и сразу по многим языкам. Это снижает порог входа для исследователей и команд, которым нужен тонкий детектор фактических промахов, способный переноситься между языками и задачами. Да, аннотатор один и автоматический, а фокус — только QA по Википедии. Но качественные результаты и хорошая адаптация к разным доменам говорят, что подход уже сегодня практичен.

📜 Полная статья

💾 Код

***

Если вам интересна тема ИИ, подписывайтесь на мой Telegram‑канал — там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.

Источник: habr.com

✅ Найденные теги: новости, Почему

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Фото сгенерированных лиц: исследование показывает, что люди не могут отличить настоящие лица от сгенерированных
Нейросети построили капитализм за трое суток: 100 агентов Claude заперли…
Скетч: цифровой осьминог и виртуальный мир внутри компьютера с человечком.
Сцена с жестами пальцами, где один жест символизирует "VPN", а другой "KHP".
‼️Paramount купила Warner Bros. Discovery — сумма сделки составила безумные…
Скриншот репозитория GitHub "Claude Scientific Skills" AI для научных исследований.
Структура эффективного запроса Claude с элементами задачи, контекста и референса.
Эскиз и готовая веб-страница платформы для AI-дизайна в современном темном режиме.
ideipro logotyp
Image Not Found
Звёздное небо с галактиками и туманностями, космос, Вселенная, астрофотография.

Система оповещения обсерватории Рубина отправила 800 000 сигналов в первую ночь наблюдений.

Астрономы будут получать оповещения о небесных явлениях в течение нескольких минут после их обнаружения. Теренс О'Брайен, редактор раздела «Выходные». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной…

Мар 2, 2026
Женщина с длинными тёмными волосами в синем свете, нейтральный фон.

Расследование в отношении 61-фунтовой машины, которая «пожирает» пластик и выплевывает кирпичи.

Обзор компактного пресса для мягкого пластика Clear Drop — и что будет дальше. Шон Холлистер, старший редактор Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего…

Мар 2, 2026
Черный углеродное волокно с текстурой плетения, отражающий свет.

Материал будущего: как работает «бессмертный» композит

Учёные из Университета штата Северная Каролина представили композит нового поколения, способный самостоятельно восстанавливаться после серьёзных повреждений.  Речь идёт о модифицированном армированном волокном полимере (FRP), который не просто сохраняет прочность при малом весе, но и способен «залечивать» внутренние…

Мар 2, 2026
Круглый экран с изображением замка и горы, рядом электронная плата.

Круглый дисплей Waveshare для креативных проектов

Круглый 7-дюймовый сенсорный дисплей от Waveshare создан для разработчиков и дизайнеров, которым нужен нестандартный экран.  Это IPS-панель с разрешением 1 080×1 080 пикселей, поддержкой 10-точечного ёмкостного сенсора, оптической склейкой и защитным закалённым стеклом, выполненная в круглом форм-факторе.…

Мар 2, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых