Закажи экспресс-аудит своего дела онлайн всего за 199 ₽
и получи рекомендации по улучшению - Жми сюда !

Нейросети с треском завалили тесты на правдивость ответов

6123b0fb479728cb4c0f638a6fb43613

Комплекcный тест под названием FACTS Benchmark Suite включает в себя сразу четыре бенчмарка. Первый оценивает способность ИИ давать точные ответы на простые проверяемые вопросы без интернета (Parametric), второй — на умение пользоваться поиском в сети (Grounding), третий — на способность достоверно отвечать текстом на изображение (Multimodal). Четвёртый бенчмарк проверяет точность понимания контекста запроса.

По итогам проверки 15 популярных нейросетей выяснилось, что ни одна из них не набрала 100-процентный результат, и даже в простейшей дисциплине (фактологические вопросы) лучший показатель составил 76,4%.

Другими словами, языковые модели не смогли достоверно ответить даже на те вопросы, ответ на которые уже известен и не требует дополнительных вычислений. Например, это заранее отобранные специалистами факты из истории и других наук.

a70cf33d3644d72494ba535178cb8c35

Такие ошибки, по мнению экспертов, связаны с тем, что LLM путаются при отделении факта от красиво сложенной, но недостоверной или поверхностно правдивой истории. Это может быть особенно опасно при использовании нейросетей в медицине, финансах, юриспруденции, науке и других «высокоточных» сферах деятельности.

Источник: 4pda.to

Источник: ai-news.ru

✅ Найденные теги: Нейросети, новости, Ответы, Правдивость, Тесты

Нет других записей в этой рубрике.

Новости других рубрик

Архив рубрики ~Лента новостей~: Apple делает ставку на то, что более дешевый ИИ привлечет небольших разработчиков. Архив рубрики ~Лента новостей~: Мы попробовали Claude Code в энтерпрайз-разработке и собрали за вас восемь проблем Архив рубрики ~Лента новостей~: Лиз Кендалл утверждает, что лейбористы заставят ИИ «работать на благо рабочих». Архив рубрики ~Лента новостей~: Итеративное декодирование LDPC/турбо, полярные коды — разбираем на C++ и сравниваем с MATLAB Архив рубрики ~Лента новостей~: Инсайдеры Tesla признают, что беспилотное вождение — это полная катастрофа Архив рубрики ~Лента новостей~: Теперь можно купить клубнику, выращенную на ферме с искусственным интеллектом Архив рубрики ~Лента новостей~: Как я «переезжал» своего ИИ-агента с OpenClaw на Hermes и собрал все грабли (чтобы Вы не собирали) Архив рубрики ~Лента новостей~: Архаические люди использовали огонь в пещере между 1,8 и 1,1 миллиона лет назад. Его следы нашли в южноафриканской пещере Вондерверк