Сообщается, что последняя модель Google превосходит конкурентов в нескольких тестах производительности, но проблемы с надежностью оставляют опасения по поводу возможного пузыря искусственного интеллекта.
Gemini 3 — новейшая модель искусственного интеллекта от Google VCG через Getty Images
По данным компании, новейший чат-бот Google, Gemini 3, добился значительных успехов в ряде бенчмарков, предназначенных для оценки прогресса в области искусственного интеллекта. Этих достижений может быть достаточно, чтобы развеять опасения по поводу краха «пузыря» искусственного интеллекта, но пока неясно, насколько хорошо эти результаты соотносятся с реальными возможностями.
Более того, постоянные фактические неточности и галлюцинации, ставшие отличительной чертой всех крупных языковых моделей, не показывают никаких признаков устранения, что может создать проблемы для любых применений, где надежность имеет решающее значение.
В сообщении в блоге, анонсирующем новую модель, руководители Google Сундар Пичаи, Демис Хассабис и Корай Кавукчуоглу пишут, что Gemini 3 обладает «логическим уровнем доктора философии» — термин, который также использовал конкурент OpenAI, анонсируя свою модель GPT-5. В качестве доказательства они приводят результаты нескольких тестов, разработанных для проверки знаний «выпускного» уровня, таких как «Последний экзамен человечества» — набор из 2500 исследовательских вопросов по математике, естественным и гуманитарным наукам. Gemini 3 набрал 37,5% на этом тесте, превзойдя предыдущего рекордсмена — версию GPT-5 от OpenAI, которая набрала 26,5%.
Подобные скачки могут указывать на то, что модель стала более эффективной в определённых аспектах, говорит Люк Роше из Оксфордского университета, но нам следует быть осторожными в интерпретации этих результатов. «Если модель меняет свой показатель с 80% до 90% в бенчмарке, что это означает? Означает ли это, что модель была на уровне 80% доктора философии, а теперь достигла 90%? Думаю, это довольно сложно понять», — говорят они. «Не существует численного показателя, который бы позволил определить, обладает ли модель ИИ способностью к рассуждению, поскольку это очень субъективное понятие».
Тесты на соответствие стандартам имеют множество ограничений, например, требуют ответа с одним или несколькими вариантами ответа, для которых модели не обязаны демонстрировать свою работоспособность. «Очень легко использовать вопросы с несколькими вариантами ответа для оценки [моделей]», — говорит Роше, — «но если вы обратитесь к врачу, врач не будет оценивать вас с помощью вопросов с несколькими вариантами ответа. Если вы обратитесь к юристу, юрист не даст вам юридической консультации с вариантами ответов». Существует также риск того, что ответы на такие тесты были замаскированы в обучающие данные тестируемых моделей ИИ, что фактически позволило им мошенничать.

По словам Роше, настоящим испытанием для Gemini 3 и самых передовых моделей ИИ (а также для того, будет ли их производительность достаточной, чтобы оправдать триллионы долларов, которые такие компании, как Google и OpenAI, тратят на центры обработки данных ИИ) станет то, как люди используют модель и насколько надежной они ее считают.
Google заявляет, что улучшенные возможности модели позволят ей эффективнее разрабатывать программное обеспечение, организовывать электронную почту и анализировать документы. Компания также заявляет, что она улучшит поиск Google, дополняя результаты, генерируемые ИИ, графикой и симуляциями.
По словам Адама Махди из Оксфордского университета, реальные улучшения, скорее всего, коснутся людей, использующих инструменты ИИ для автономного написания кода. Этот процесс называется агентным кодированием. «Я думаю, мы достигли предела возможностей типичного чат-бота, и реальные преимущества Gemini 3 Pro [стандартной версии Gemini 3], вероятно, проявятся в более сложных, потенциально агентных рабочих процессах, а не в повседневном общении», — говорит он.
Первой реакцией в сети стали похвалы пользователей за возможности Gemini в области программирования и способность рассуждать, однако, как и в случае со всеми новыми моделями, появились и сообщения, в которых указывалось на неспособность Gemini выполнить, казалось бы, простые задачи, например, обвести нарисованные от руки стрелки, указывающие на разных людей, или пройти простые тесты на визуальное мышление.
В технических характеристиках Gemini 3 Google признаёт, что модель будет периодически давать галлюцинации и давать фактические неточности, примерно с той же частотой, что и другие ведущие модели ИИ. Отсутствие улучшений в этой области вызывает серьёзную обеспокоенность, считает Артур д’Авила Гарсес из Сити Сент-Джорджс при Лондонском университете. «Проблема в том, что все компании, занимающиеся разработкой ИИ, уже более двух лет пытаются уменьшить количество галлюцинаций, но достаточно одной очень серьёзной галлюцинации, чтобы окончательно разрушить доверие к системе», — говорит он.
Источник: www.newscientist.com



























