Таблица сравнения моделей ИИ по разным метрикам производительности.

Нейросети с треском завалили тесты на правдивость ответов

6123b0fb479728cb4c0f638a6fb43613

Комплекcный тест под названием FACTS Benchmark Suite включает в себя сразу четыре бенчмарка. Первый оценивает способность ИИ давать точные ответы на простые проверяемые вопросы без интернета (Parametric), второй — на умение пользоваться поиском в сети (Grounding), третий — на способность достоверно отвечать текстом на изображение (Multimodal). Четвёртый бенчмарк проверяет точность понимания контекста запроса.

По итогам проверки 15 популярных нейросетей выяснилось, что ни одна из них не набрала 100-процентный результат, и даже в простейшей дисциплине (фактологические вопросы) лучший показатель составил 76,4%.

Другими словами, языковые модели не смогли достоверно ответить даже на те вопросы, ответ на которые уже известен и не требует дополнительных вычислений. Например, это заранее отобранные специалистами факты из истории и других наук.

a70cf33d3644d72494ba535178cb8c35

Такие ошибки, по мнению экспертов, связаны с тем, что LLM путаются при отделении факта от красиво сложенной, но недостоверной или поверхностно правдивой истории. Это может быть особенно опасно при использовании нейросетей в медицине, финансах, юриспруденции, науке и других «высокоточных» сферах деятельности.

Источник: 4pda.to

Источник: ai-news.ru

✅ Найденные теги: Нейросети, новости, Ответы, Правдивость, Тесты

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Прозрачный раствор в бутылочке с черной крышкой, химическая формула на этикетке.
Диаграмма ложной идентичности: реальность и самозванец, высокие и низкие частоты.
Изображение крупным планом дрона с логотипом Anduril.
ideipro logotyp
Предоставление врачам необходимой информации непосредственно в момент общения с пациентом.
Руководство по Kedro: ваш готовый к внедрению инструментарий для анализа данных.
Цифровая сеть и технологическая сфера, соединенные световым потоком.
Модель атома с ядром и вращающимися электронами на темном фоне.
Флуоресцентное изображение эмбриона синих и фиолетовых оттенков на черном фоне.
Image Not Found
Прозрачный раствор в бутылочке с черной крышкой, химическая формула на этикетке.

Ученые усовершенствовали метод получения промышленного спирта

Полученный α-кумиловый спирт © Елена Редина. Ученые разработали новый метод получения α-кумилового спирта — ключевого продукта для производства полимеров, косметики и моющих средств. Этот спирт также служит основой для получения вещества, придающего пластикам прочность и устойчивость к…

Мар 5, 2026
Диаграмма ложной идентичности: реальность и самозванец, высокие и низкие частоты.

Эффект наложения спектров в аудио, объяснение простое: от «колес телеги» до волновых форм.

Понимание основополагающих искажений цифрового звука с самых базовых принципов, с примерами и наглядными объяснениями. Делиться Вы когда-нибудь задумывались, почему в фильмах вращающиеся колеса иногда кажутся движущимися вспять? Или почему дешевая цифровая запись звучит резко и металлически по…

Мар 5, 2026
Изображение крупным планом дрона с логотипом Anduril.

Компания Anduril планирует достичь оценки в 60 миллиардов долларов в новом раунде финансирования.

Вкратце Источник изображения: Кайл Гриллот/Bloomberg / Getty Images Согласно новому сообщению The Wall Street Journal, оборонно-технологическая компания Палмера Лаки находится в разгаре многомиллиардного раунда финансирования, возглавляемого Thrive Capital и Andreessen Horowitz. Этот раунд финансирования состоится менее чем…

Мар 5, 2026
ideipro logotyp

Компания Illumina на конференции JPM 2026: Успешный 4-й квартал, рост клинических исследований и запуск BioInsight.

Автор: Эллисон Проффитт 13 января 2026 г. | Джейкоб Тейсен во вторник вернулся на сцену конференции JP Morgan Healthcare Conference с посланием о восходящем тренде: компания Illumina снова демонстрирует рост, и клиническое секвенирование является движущей силой этого…

Мар 5, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых