Таблица сравнения моделей ИИ по разным метрикам производительности.

Нейросети с треском завалили тесты на правдивость ответов

6123b0fb479728cb4c0f638a6fb43613

Комплекcный тест под названием FACTS Benchmark Suite включает в себя сразу четыре бенчмарка. Первый оценивает способность ИИ давать точные ответы на простые проверяемые вопросы без интернета (Parametric), второй — на умение пользоваться поиском в сети (Grounding), третий — на способность достоверно отвечать текстом на изображение (Multimodal). Четвёртый бенчмарк проверяет точность понимания контекста запроса.

По итогам проверки 15 популярных нейросетей выяснилось, что ни одна из них не набрала 100-процентный результат, и даже в простейшей дисциплине (фактологические вопросы) лучший показатель составил 76,4%.

Другими словами, языковые модели не смогли достоверно ответить даже на те вопросы, ответ на которые уже известен и не требует дополнительных вычислений. Например, это заранее отобранные специалистами факты из истории и других наук.

a70cf33d3644d72494ba535178cb8c35

Такие ошибки, по мнению экспертов, связаны с тем, что LLM путаются при отделении факта от красиво сложенной, но недостоверной или поверхностно правдивой истории. Это может быть особенно опасно при использовании нейросетей в медицине, финансах, юриспруденции, науке и других «высокоточных» сферах деятельности.

Источник: 4pda.to

Источник: ai-news.ru

✅ Найденные теги: Нейросети, новости, Ответы, Правдивость, Тесты

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Цифровая сеть и технологическая сфера, соединенные световым потоком.
Модель атома с ядром и вращающимися электронами на темном фоне.
Флуоресцентное изображение эмбриона синих и фиолетовых оттенков на черном фоне.
Компания GE HealthCare запускает новую ультразвуковую систему для диагностики сердечно-сосудистых заболеваний.
ideipro logotyp
Лидеры здравоохранения обсуждают «пузырь» искусственного интеллекта, часть 2 | MobiHealthNews
Смартфон с открытым сайтом Medicare.gov на экране, онлайн-сервис здравоохранения.
ideipro logotyp
Ноутбук с программой редактирования изображений, яркое фото человека в синем плаще.
Image Not Found
Цифровая сеть и технологическая сфера, соединенные световым потоком.

Разница между начинающими и опытными специалистами по анализу данных заключается не в коде.

Почему моя одержимость сложными алгоритмами на самом деле тормозила мою карьеру. Делиться Изображение предоставлено автором (создано с помощью Nano Banana Pro) Если вы потратите пять минут на LinkedIn или что-то подобное, вы заметите острую дискуссию в индустрии…

Мар 5, 2026
Модель атома с ядром и вращающимися электронами на темном фоне.

Тайна ядерных «магических чисел» наконец-то разгадана.

Математический аналог микроскопа с переменным разрешением пролил свет на то, почему некоторые атомы обладают исключительной стабильностью — загадку, которая десятилетиями оставалась неразгаданной в ядерной физике. Некоторые атомы кажутся особенно стабильными из-за количества протонов и нейтронов в них.…

Мар 5, 2026
Флуоресцентное изображение эмбриона синих и фиолетовых оттенков на черном фоне.

Обнаружена неожиданно высокая организованность ДНК на самой ранней стадии развития эмбриона

Ранний эмбрион дрозофилы, запечатленный во время волны деления ядра. Делящиеся ядра (синие) и неделящиеся ядра (розовые) иллюстрируют быстрый, высокоорганизованный характер раннего развития и существенную регуляцию организации генома, необходимую для правильной активации генов, несмотря на многократные нарушения в…

Мар 5, 2026
Компания GE HealthCare запускает новую ультразвуковую систему для диагностики сердечно-сосудистых заболеваний.

Компания GE HealthCare запускает новую ультразвуковую систему для диагностики сердечно-сосудистых заболеваний.

Компания GE HealthCare недавно получила маркировку CE и разрешение FDA 510(k) на свою систему. Фото: Poetra.RH / Shutterstock.com. Компания GE HealthCare представила Vivid Pioneer, новую систему ультразвуковой диагностики сердечно-сосудистой системы, которая использует искусственный интеллект для повышения скорости…

Мар 5, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых