Закажи экспресс-аудит своего дела онлайн всего за 199 ₽
и получи рекомендации по улучшению - Жми сюда !

Нейросети с треском завалили тесты на правдивость ответов

6123b0fb479728cb4c0f638a6fb43613

Комплекcный тест под названием FACTS Benchmark Suite включает в себя сразу четыре бенчмарка. Первый оценивает способность ИИ давать точные ответы на простые проверяемые вопросы без интернета (Parametric), второй — на умение пользоваться поиском в сети (Grounding), третий — на способность достоверно отвечать текстом на изображение (Multimodal). Четвёртый бенчмарк проверяет точность понимания контекста запроса.

По итогам проверки 15 популярных нейросетей выяснилось, что ни одна из них не набрала 100-процентный результат, и даже в простейшей дисциплине (фактологические вопросы) лучший показатель составил 76,4%.

Другими словами, языковые модели не смогли достоверно ответить даже на те вопросы, ответ на которые уже известен и не требует дополнительных вычислений. Например, это заранее отобранные специалистами факты из истории и других наук.

a70cf33d3644d72494ba535178cb8c35

Такие ошибки, по мнению экспертов, связаны с тем, что LLM путаются при отделении факта от красиво сложенной, но недостоверной или поверхностно правдивой истории. Это может быть особенно опасно при использовании нейросетей в медицине, финансах, юриспруденции, науке и других «высокоточных» сферах деятельности.

Источник: 4pda.to

Источник: ai-news.ru

✅ Найденные теги: Нейросети, новости, Ответы, Правдивость, Тесты

Нет других записей в этой рубрике.

Новости других рубрик

Архив рубрики ~Лента новостей~: Почему дипломированные юристы повреждают ваши документы при делегировании полномочий? Архив рубрики ~Лента новостей~: Apple вносит изменения в свой спорный дизайн Liquid Glass. Архив рубрики ~Лента новостей~: ИИ уже пишет 80% кода Anthropic. Самое тревожное спрятано в цифре, которую подают как успех Архив рубрики ~Лента новостей~: Компания Aviva использует искусственный интеллект для предотвращения мошенничества в сфере страхования на сумму 230 миллионов фунтов стерлингов. Архив рубрики ~Лента новостей~: ФИФА расширяет использование ИИ на чемпионате мира, чтобы уменьшить количество оскорблений со стороны игроков. Архив рубрики ~Лента новостей~: DuckDuckGo устанавливает Spike, поскольку Google пытается заменить поиск искусственным интеллектом Архив рубрики ~Лента новостей~: AI неожиданно вернул человечество к вопросу о смысле Архив рубрики ~Лента новостей~: Рассматриваем первую фотографию контактной площадки процессоров Intel Nova Lake