Image

Модель Gemini 3 от Google поддерживает ажиотаж вокруг искусственного интеллекта — пока что.

Сообщается, что последняя модель Google превосходит конкурентов в нескольких тестах производительности, но проблемы с надежностью оставляют опасения по поводу возможного пузыря искусственного интеллекта.

1e60287b8cc9b509e75c37ead4077b4c

Gemini 3 — новейшая модель искусственного интеллекта от Google

VCG через Getty Images

По данным компании, новейший чат-бот Google, Gemini 3, добился значительных успехов в ряде бенчмарков, предназначенных для оценки прогресса в области искусственного интеллекта. Этих достижений может быть достаточно, чтобы развеять опасения по поводу краха «пузыря» искусственного интеллекта, но пока неясно, насколько хорошо эти результаты соотносятся с реальными возможностями.

Более того, постоянные фактические неточности и галлюцинации, ставшие отличительной чертой всех крупных языковых моделей, не показывают никаких признаков устранения, что может создать проблемы для любых применений, где надежность имеет решающее значение.

В сообщении в блоге, анонсирующем новую модель, руководители Google Сундар Пичаи, Демис Хассабис и Корай Кавукчуоглу пишут, что Gemini 3 обладает «логическим уровнем доктора философии» — термин, который также использовал конкурент OpenAI, анонсируя свою модель GPT-5. В качестве доказательства они приводят результаты нескольких тестов, разработанных для проверки знаний «выпускного» уровня, таких как «Последний экзамен человечества» — набор из 2500 исследовательских вопросов по математике, естественным и гуманитарным наукам. Gemini 3 набрал 37,5% на этом тесте, превзойдя предыдущего рекордсмена — версию GPT-5 от OpenAI, которая набрала 26,5%.

Подобные скачки могут указывать на то, что модель стала более эффективной в определённых аспектах, говорит Люк Роше из Оксфордского университета, но нам следует быть осторожными в интерпретации этих результатов. «Если модель меняет свой показатель с 80% до 90% в бенчмарке, что это означает? Означает ли это, что модель была на уровне 80% доктора философии, а теперь достигла 90%? Думаю, это довольно сложно понять», — говорят они. «Не существует численного показателя, который бы позволил определить, обладает ли модель ИИ способностью к рассуждению, поскольку это очень субъективное понятие».

Тесты на соответствие стандартам имеют множество ограничений, например, требуют ответа с одним или несколькими вариантами ответа, для которых модели не обязаны демонстрировать свою работоспособность. «Очень легко использовать вопросы с несколькими вариантами ответа для оценки [моделей]», — говорит Роше, — «но если вы обратитесь к врачу, врач не будет оценивать вас с помощью вопросов с несколькими вариантами ответа. Если вы обратитесь к юристу, юрист не даст вам юридической консультации с вариантами ответов». Существует также риск того, что ответы на такие тесты были замаскированы в обучающие данные тестируемых моделей ИИ, что фактически позволило им мошенничать.

New Scientist. Новости науки и длинные статьи от опытных журналистов, освещающие события в области науки, технологий, здравоохранения и окружающей среды на веб-сайте и в журнале.

По словам Роше, настоящим испытанием для Gemini 3 и самых передовых моделей ИИ (а также для того, будет ли их производительность достаточной, чтобы оправдать триллионы долларов, которые такие компании, как Google и OpenAI, тратят на центры обработки данных ИИ) станет то, как люди используют модель и насколько надежной они ее считают.

Google заявляет, что улучшенные возможности модели позволят ей эффективнее разрабатывать программное обеспечение, организовывать электронную почту и анализировать документы. Компания также заявляет, что она улучшит поиск Google, дополняя результаты, генерируемые ИИ, графикой и симуляциями.

По словам Адама Махди из Оксфордского университета, реальные улучшения, скорее всего, коснутся людей, использующих инструменты ИИ для автономного написания кода. Этот процесс называется агентным кодированием. «Я думаю, мы достигли предела возможностей типичного чат-бота, и реальные преимущества Gemini 3 Pro [стандартной версии Gemini 3], вероятно, проявятся в более сложных, потенциально агентных рабочих процессах, а не в повседневном общении», — говорит он.

 Первой реакцией в сети стали похвалы пользователей за возможности Gemini в области программирования и способность рассуждать, однако, как и в случае со всеми новыми моделями, появились и сообщения, в которых указывалось на неспособность Gemini выполнить, казалось бы, простые задачи, например, обвести нарисованные от руки стрелки, указывающие на разных людей, или пройти простые тесты на визуальное мышление.

В технических характеристиках Gemini 3 Google признаёт, что модель будет периодически давать галлюцинации и давать фактические неточности, примерно с той же частотой, что и другие ведущие модели ИИ. Отсутствие улучшений в этой области вызывает серьёзную обеспокоенность, считает Артур д’Авила Гарсес из Сити Сент-Джорджс при Лондонском университете. «Проблема в том, что все компании, занимающиеся разработкой ИИ, уже более двух лет пытаются уменьшить количество галлюцинаций, но достаточно одной очень серьёзной галлюцинации, чтобы окончательно разрушить доверие к системе», — говорит он.

Источник: www.newscientist.com

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

ИИ почти всех обгонит? Прогнозы звучат громко, но есть нюансы…
Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.
dummy-img
Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.
Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.
dummy-img
dummy-img
Взаимодействие человека и машины погружается под воду.
Взаимодействие человека и машины погружается под воду.
Image Not Found
Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.

Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.

Вкратце Опубликовано: Изображение предоставлено: Thos Robinson/Getty Images для The New York Times (откроется в новом окне) Джули Борт Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.…

Апр 21, 2026
dummy-img

Как почистить виниловые пластинки (2026): пылесос, ультразвук, чистящий раствор, щетка.

Эти щелчки и треск недопустимы. Приведите свою музыку в порядок с помощью этого удобного руководства. Источник: www.wired.com

Апр 21, 2026
Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Это сегодняшний выпуск The Download, нашей ежедневной новостной рассылки, которая предоставляет вам ежедневную порцию событий в мире технологий. Кибермошенники обходят системы безопасности банков с помощью незаконных инструментов, продаваемых в Telegram. В центре по отмыванию денег в Камбодже…

Апр 21, 2026
Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Это сегодняшний выпуск The Download, нашей ежедневной новостной рассылки, которая предоставляет вам ежедневную порцию событий в мире технологий. Кибермошенники обходят системы безопасности банков с помощью незаконных инструментов, продаваемых в Telegram. В центре по отмыванию денег в Камбодже…

Апр 21, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых