Таблица сравнения моделей ИИ по разным метрикам производительности.

Нейросети с треском завалили тесты на правдивость ответов

6123b0fb479728cb4c0f638a6fb43613

Комплекcный тест под названием FACTS Benchmark Suite включает в себя сразу четыре бенчмарка. Первый оценивает способность ИИ давать точные ответы на простые проверяемые вопросы без интернета (Parametric), второй — на умение пользоваться поиском в сети (Grounding), третий — на способность достоверно отвечать текстом на изображение (Multimodal). Четвёртый бенчмарк проверяет точность понимания контекста запроса.

По итогам проверки 15 популярных нейросетей выяснилось, что ни одна из них не набрала 100-процентный результат, и даже в простейшей дисциплине (фактологические вопросы) лучший показатель составил 76,4%.

Другими словами, языковые модели не смогли достоверно ответить даже на те вопросы, ответ на которые уже известен и не требует дополнительных вычислений. Например, это заранее отобранные специалистами факты из истории и других наук.

a70cf33d3644d72494ba535178cb8c35

Такие ошибки, по мнению экспертов, связаны с тем, что LLM путаются при отделении факта от красиво сложенной, но недостоверной или поверхностно правдивой истории. Это может быть особенно опасно при использовании нейросетей в медицине, финансах, юриспруденции, науке и других «высокоточных» сферах деятельности.

Источник: 4pda.to

Источник: ai-news.ru

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Дифференциально приватное машинное обучение в масштабе с использованием JAX-Privacy
dummy-img
Следующим узким местом в развитии ИИ станут не модели, а способность агентов мыслить сообща.
Следующим узким местом в развитии ИИ станут не модели, а способность агентов мыслить сообща.
Под базельским концертным залом нашли жертв последней швейцарской чумы. Большинство из них умерли в юном возрасте
СОСТОЯЛОСЬ ЗАСЕДАНИЕ МЕТОДИЧЕСКОГО СОВЕТА, ПОСВЯЩЕННОЕ ПОКОЛЕНИЮ «РОЖДЕННЫХ ЦИФРОВЫМИ»
СОСТОЯЛОСЬ ЗАСЕДАНИЕ МЕТОДИЧЕСКОГО СОВЕТА, ПОСВЯЩЕННОЕ ПОКОЛЕНИЮ «РОЖДЕННЫХ ЦИФРОВЫМИ»
Биофизический мир внутри переполненной клетки
Появились новые доказательства того, как одиночество влияет на память в пожилом возрасте.
Image Not Found
Дифференциально приватное машинное обучение в масштабе с использованием JAX-Privacy

Дифференциально приватное машинное обучение в масштабе с использованием JAX-Privacy

Мы объявляем о выпуске JAX-Privacy 1.0, библиотеки для машинного обучения с дифференциальной приватностью, использующей высокопроизводительную вычислительную библиотеку JAX. Быстрые ссылки GitHub Делиться Скопировать ссылку × От персонализированных рекомендаций до научных достижений, модели ИИ помогают улучшать жизнь и…

Апр 21, 2026
dummy-img

Следующий этап развития Agents SDK | OpenAI

Обновленный SDK для агентов помогает разработчикам создавать агентов, которые могут проверять файлы, выполнять команды, редактировать код и работать над долгосрочными задачами в контролируемых изолированных средах. Мы представляем новые возможности в Agents SDK (открывается в новом окне) ,…

Апр 21, 2026
Следующим узким местом в развитии ИИ станут не модели, а способность агентов мыслить сообща.

Следующим узким местом в развитии ИИ станут не модели, а способность агентов мыслить сообща.

Тарин Пламб CleoP создан с помощью Midjourney. «Агенты ИИ могут взаимодействовать друг с другом, но не могут мыслить вместе. Это огромная разница и узкое место для систем следующего поколения», — говорит Виджой Пандей, старший вице-президент и генеральный…

Апр 21, 2026
Следующим узким местом в развитии ИИ станут не модели, а способность агентов мыслить сообща.

Следующим узким местом в развитии ИИ станут не модели, а способность агентов мыслить сообща.

Тарин Пламб CleoP создан с помощью Midjourney. «Агенты ИИ могут взаимодействовать друг с другом, но не могут мыслить вместе. Это огромная разница и узкое место для систем следующего поколения», — говорит Виджой Пандей, старший вице-президент и генеральный…

Апр 21, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых