Таблица сравнения моделей ИИ по разным метрикам производительности.

Нейросети с треском завалили тесты на правдивость ответов

6123b0fb479728cb4c0f638a6fb43613

Комплекcный тест под названием FACTS Benchmark Suite включает в себя сразу четыре бенчмарка. Первый оценивает способность ИИ давать точные ответы на простые проверяемые вопросы без интернета (Parametric), второй — на умение пользоваться поиском в сети (Grounding), третий — на способность достоверно отвечать текстом на изображение (Multimodal). Четвёртый бенчмарк проверяет точность понимания контекста запроса.

По итогам проверки 15 популярных нейросетей выяснилось, что ни одна из них не набрала 100-процентный результат, и даже в простейшей дисциплине (фактологические вопросы) лучший показатель составил 76,4%.

Другими словами, языковые модели не смогли достоверно ответить даже на те вопросы, ответ на которые уже известен и не требует дополнительных вычислений. Например, это заранее отобранные специалистами факты из истории и других наук.

a70cf33d3644d72494ba535178cb8c35

Такие ошибки, по мнению экспертов, связаны с тем, что LLM путаются при отделении факта от красиво сложенной, но недостоверной или поверхностно правдивой истории. Это может быть особенно опасно при использовании нейросетей в медицине, финансах, юриспруденции, науке и других «высокоточных» сферах деятельности.

Источник: 4pda.to

Источник: ai-news.ru

✅ Найденные теги: Нейросети, новости, Ответы, Правдивость, Тесты

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Компания GE HealthCare запускает новую ультразвуковую систему для диагностики сердечно-сосудистых заболеваний.
ideipro logotyp
Лидеры здравоохранения обсуждают «пузырь» искусственного интеллекта, часть 2 | MobiHealthNews
Смартфон с открытым сайтом Medicare.gov на экране, онлайн-сервис здравоохранения.
ideipro logotyp
Ноутбук с программой редактирования изображений, яркое фото человека в синем плаще.
Человек в кожаной куртке демонстрирует процессор на футуристическом фоне.
ideipro logotyp
Отражение деревьев в воде озера, спокойная гладь.
Image Not Found
Компания GE HealthCare запускает новую ультразвуковую систему для диагностики сердечно-сосудистых заболеваний.

Компания GE HealthCare запускает новую ультразвуковую систему для диагностики сердечно-сосудистых заболеваний.

Компания GE HealthCare недавно получила маркировку CE и разрешение FDA 510(k) на свою систему. Фото: Poetra.RH / Shutterstock.com. Компания GE HealthCare представила Vivid Pioneer, новую систему ультразвуковой диагностики сердечно-сосудистой системы, которая использует искусственный интеллект для повышения скорости…

Мар 5, 2026
ideipro logotyp

Компания Оно прекратила разработку препарата Deciphera для лечения солидных опухолей на ранних стадиях по стратегическим причинам.

Дочерняя компания Ono Pharmaceutical, Deciphera Pharmaceuticals, исключила из своего портфеля разработок препарат, находящийся на ранней стадии разработки, для лечения запущенных форм рака. DCC-3084, пан-ингибитор RAF, «больше не входит в наш портфель разработок, и в настоящее время мы…

Мар 5, 2026
Лидеры здравоохранения обсуждают «пузырь» искусственного интеллекта, часть 2 | MobiHealthNews

Лидеры здравоохранения обсуждают «пузырь» искусственного интеллекта, часть 2 | MobiHealthNews

Наряду с опасениями по поводу ИИ, руководители медицинских учреждений заявляют, что эта технология имеет долгосрочный потенциал для улучшения клинических процессов и результатов лечения пациентов, поэтому 2025 год станет годом как энтузиазма, так и осторожного анализа. ИИ Фото:…

Мар 5, 2026
Смартфон с открытым сайтом Medicare.gov на экране, онлайн-сервис здравоохранения.

STAT+: Достаточно ли платит программа Medicare ACCESS?

Вы читаете веб-версию издания STAT о технологиях в здравоохранении. Управление оповещениями для этой статьи Отправить эту статью по электронной почте Поделитесь этой статьей Adobe Вы читаете веб-версию информационного бюллетеня STAT о технологиях в здравоохранении — нашего руководства…

Мар 5, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых