Модель Gemini 3 от Google поддерживает ажиотаж вокруг искусственного интеллекта — пока что.

Ноя 19, 2025 0

Сообщается, что последняя модель Google превосходит конкурентов в нескольких тестах производительности, но проблемы с надежностью оставляют опасения по поводу возможного пузыря искусственного интеллекта.

1e60287b8cc9b509e75c37ead4077b4c — Gemini 3 — новейшая модель искусственного интеллекта от Google
VCG через Getty Images

По данным компании, новейший чат-бот Google, Gemini 3, добился значительных успехов в ряде бенчмарков, предназначенных для оценки прогресса в области искусственного интеллекта. Этих достижений может быть достаточно, чтобы развеять опасения по поводу краха «пузыря» искусственного интеллекта, но пока неясно, насколько хорошо эти результаты соотносятся с реальными возможностями.

Более того, постоянные фактические неточности и галлюцинации, ставшие отличительной чертой всех крупных языковых моделей, не показывают никаких признаков устранения, что может создать проблемы для любых применений, где надежность имеет решающее значение.

В сообщении в блоге, анонсирующем новую модель, руководители Google Сундар Пичаи, Демис Хассабис и Корай Кавукчуоглу пишут, что Gemini 3 обладает «логическим уровнем доктора философии» — термин, который также использовал конкурент OpenAI, анонсируя свою модель GPT-5. В качестве доказательства они приводят результаты нескольких тестов, разработанных для проверки знаний «выпускного» уровня, таких как «Последний экзамен человечества» — набор из 2500 исследовательских вопросов по математике, естественным и гуманитарным наукам. Gemini 3 набрал 37,5% на этом тесте, превзойдя предыдущего рекордсмена — версию GPT-5 от OpenAI, которая набрала 26,5%.

Подобные скачки могут указывать на то, что модель стала более эффективной в определённых аспектах, говорит Люк Роше из Оксфордского университета, но нам следует быть осторожными в интерпретации этих результатов. «Если модель меняет свой показатель с 80% до 90% в бенчмарке, что это означает? Означает ли это, что модель была на уровне 80% доктора философии, а теперь достигла 90%? Думаю, это довольно сложно понять», — говорят они. «Не существует численного показателя, который бы позволил определить, обладает ли модель ИИ способностью к рассуждению, поскольку это очень субъективное понятие».

Тесты на соответствие стандартам имеют множество ограничений, например, требуют ответа с одним или несколькими вариантами ответа, для которых модели не обязаны демонстрировать свою работоспособность. «Очень легко использовать вопросы с несколькими вариантами ответа для оценки [моделей]», — говорит Роше, — «но если вы обратитесь к врачу, врач не будет оценивать вас с помощью вопросов с несколькими вариантами ответа. Если вы обратитесь к юристу, юрист не даст вам юридической консультации с вариантами ответов». Существует также риск того, что ответы на такие тесты были замаскированы в обучающие данные тестируемых моделей ИИ, что фактически позволило им мошенничать.

По словам Роше, настоящим испытанием для Gemini 3 и самых передовых моделей ИИ (а также для того, будет ли их производительность достаточной, чтобы оправдать триллионы долларов, которые такие компании, как Google и OpenAI, тратят на центры обработки данных ИИ) станет то, как люди используют модель и насколько надежной они ее считают.

Google заявляет, что улучшенные возможности модели позволят ей эффективнее разрабатывать программное обеспечение, организовывать электронную почту и анализировать документы. Компания также заявляет, что она улучшит поиск Google, дополняя результаты, генерируемые ИИ, графикой и симуляциями.

По словам Адама Махди из Оксфордского университета, реальные улучшения, скорее всего, коснутся людей, использующих инструменты ИИ для автономного написания кода. Этот процесс называется агентным кодированием. «Я думаю, мы достигли предела возможностей типичного чат-бота, и реальные преимущества Gemini 3 Pro [стандартной версии Gemini 3], вероятно, проявятся в более сложных, потенциально агентных рабочих процессах, а не в повседневном общении», — говорит он.

Первой реакцией в сети стали похвалы пользователей за возможности Gemini в области программирования и способность рассуждать, однако, как и в случае со всеми новыми моделями, появились и сообщения, в которых указывалось на неспособность Gemini выполнить, казалось бы, простые задачи, например, обвести нарисованные от руки стрелки, указывающие на разных людей, или пройти простые тесты на визуальное мышление.

В технических характеристиках Gemini 3 Google признаёт, что модель будет периодически давать галлюцинации и давать фактические неточности, примерно с той же частотой, что и другие ведущие модели ИИ. Отсутствие улучшений в этой области вызывает серьёзную обеспокоенность, считает Артур д’Авила Гарсес из Сити Сент-Джорджс при Лондонском университете. «Проблема в том, что все компании, занимающиеся разработкой ИИ, уже более двух лет пытаются уменьшить количество галлюцинаций, но достаточно одной очень серьёзной галлюцинации, чтобы окончательно разрушить доверие к системе», — говорит он.

Источник: www.newscientist.com

Метки:

Модель новости

ПРЕДЫДУЩАЯ ЗАПИСЬ

19.11.2025

Член совета директоров OpenAI Ларри Саммерс уходит в отставку на фоне разоблачений в деле Эпштейна

СЛЕДУЮЩАЯ ЗАПИСЬ

19.11.2025

Развитие человеческой сексуальности в эпоху искусственного интеллекта

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

Еще новости рубрики

Архив рубрики ~Обо всем~

Фантазии

Июл 2, 2024

Архив рубрики ~Обо всем~

Мировоззрение

Июл 2, 2024

Архив рубрики ~Обо всем~

Влияние выдумщиков и фантазеров на развитие…

Июл 2, 2024

Архив рубрики ~Обо всем~

Нет ничего невозможного

Июл 2, 2024

Присоединяйтесь
к нам в

TELEGRAM

галерея

ИИ почти всех обгонит? Прогнозы звучат громко, но есть нюансы…

Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.

Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Взаимодействие человека и машины погружается под воду.

НОВОСТИ ДРУГИХ РУБРИК

Архив рубрики ~Лента новостей~

Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.

Вкратце Опубликовано: Изображение предоставлено: Thos Robinson/Getty Images для The New York Times (откроется в новом окне) Джули Борт Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.…

ЧИТАТЬ

Апр 21, 2026

Архив рубрики ~Лента новостей~

Как почистить виниловые пластинки (2026): пылесос, ультразвук, чистящий раствор, щетка.

Эти щелчки и треск недопустимы. Приведите свою музыку в порядок с помощью этого удобного руководства. Источник: www.wired.com

ЧИТАТЬ

Апр 21, 2026

Архив рубрики ~Лента новостей~

Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Это сегодняшний выпуск The Download, нашей ежедневной новостной рассылки, которая предоставляет вам ежедневную порцию событий в мире технологий. Кибермошенники обходят системы безопасности банков с помощью незаконных инструментов, продаваемых в Telegram. В центре по отмыванию денег в Камбодже…

ЧИТАТЬ

Апр 21, 2026

Архив рубрики ~Лента новостей~