Таблица сравнения моделей ИИ по разным метрикам производительности.

Нейросети с треском завалили тесты на правдивость ответов

6123b0fb479728cb4c0f638a6fb43613

Комплекcный тест под названием FACTS Benchmark Suite включает в себя сразу четыре бенчмарка. Первый оценивает способность ИИ давать точные ответы на простые проверяемые вопросы без интернета (Parametric), второй — на умение пользоваться поиском в сети (Grounding), третий — на способность достоверно отвечать текстом на изображение (Multimodal). Четвёртый бенчмарк проверяет точность понимания контекста запроса.

По итогам проверки 15 популярных нейросетей выяснилось, что ни одна из них не набрала 100-процентный результат, и даже в простейшей дисциплине (фактологические вопросы) лучший показатель составил 76,4%.

Другими словами, языковые модели не смогли достоверно ответить даже на те вопросы, ответ на которые уже известен и не требует дополнительных вычислений. Например, это заранее отобранные специалистами факты из истории и других наук.

a70cf33d3644d72494ba535178cb8c35

Такие ошибки, по мнению экспертов, связаны с тем, что LLM путаются при отделении факта от красиво сложенной, но недостоверной или поверхностно правдивой истории. Это может быть особенно опасно при использовании нейросетей в медицине, финансах, юриспруденции, науке и других «высокоточных» сферах деятельности.

Источник: 4pda.to

Источник: ai-news.ru

✅ Найденные теги: Нейросети, новости, Ответы, Правдивость, Тесты

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Залитый солнцем лес с деревьями и болотистой водой, покрытой зелёной растительностью.
Пленка NeoFilm 100 на деревянном столе в окружении упаковок.
Деревянный минималистичный сундук с подсветкой в интерьере.
Обложка отчета о преодолении разрыва в операционном ИИ от MIT Technology Review.
Твит о разработке в 2026: выполнение сложных задач до пробуждения США, чтобы избежать проблем с ИИ.
Прозрачный раствор в бутылочке с черной крышкой, химическая формула на этикетке.
Диаграмма ложной идентичности: реальность и самозванец, высокие и низкие частоты.
Изображение крупным планом дрона с логотипом Anduril.
ideipro logotyp
Image Not Found
Пленка NeoFilm 100 на деревянном столе в окружении упаковок.

Цифровая камера OPT NeoFilm 100 в формате плёнки

Компактная камера OPT NeoFilm 100 выполнена в виде классической 35-мм плёнки, но внутри скрывается не аналоговый механизм, а цифровая «начинка», способная снимать фото и видео.  Камера оснащена 1-мегапиксельным сенсором, который позволяет получать изображения с разрешением до 3…

Мар 5, 2026
Деревянный минималистичный сундук с подсветкой в интерьере.

«Умная» кровать-трансформер Roll

Хорватский дизайнер Лука Булян разработал проект складной кровати Roll, которая по нажатию кнопки сворачивается в аккуратный деревянный шкаф. Главная идея строится на принципе ежедневного скручивания матраса без потери его свойств. Конструкция оснащена тихим электродвигателем и плавным механизмом…

Мар 5, 2026
Обложка отчета о преодолении разрыва в операционном ИИ от MIT Technology Review.

Преодоление разрыва в операционном применении ИИ

Интеграция в масштабах всего предприятия используется для распространения современных автоматизированных процессов на завтрашние рабочие процессы, осуществляемые агентами. Трансформационный потенциал ИИ уже хорошо известен. Примеры его применения в корпоративной среде набирают обороты, и организации переходят от пилотных проектов…

Мар 5, 2026
Прозрачный раствор в бутылочке с черной крышкой, химическая формула на этикетке.

Ученые усовершенствовали метод получения промышленного спирта

Полученный α-кумиловый спирт © Елена Редина. Ученые разработали новый метод получения α-кумилового спирта — ключевого продукта для производства полимеров, косметики и моющих средств. Этот спирт также служит основой для получения вещества, придающего пластикам прочность и устойчивость к…

Мар 5, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых