Image

Модель Gemini 3 от Google поддерживает ажиотаж вокруг искусственного интеллекта — пока что.

Сообщается, что последняя модель Google превосходит конкурентов в нескольких тестах производительности, но проблемы с надежностью оставляют опасения по поводу возможного пузыря искусственного интеллекта.

1e60287b8cc9b509e75c37ead4077b4c

Gemini 3 — новейшая модель искусственного интеллекта от Google

VCG через Getty Images

По данным компании, новейший чат-бот Google, Gemini 3, добился значительных успехов в ряде бенчмарков, предназначенных для оценки прогресса в области искусственного интеллекта. Этих достижений может быть достаточно, чтобы развеять опасения по поводу краха «пузыря» искусственного интеллекта, но пока неясно, насколько хорошо эти результаты соотносятся с реальными возможностями.

Более того, постоянные фактические неточности и галлюцинации, ставшие отличительной чертой всех крупных языковых моделей, не показывают никаких признаков устранения, что может создать проблемы для любых применений, где надежность имеет решающее значение.

В сообщении в блоге, анонсирующем новую модель, руководители Google Сундар Пичаи, Демис Хассабис и Корай Кавукчуоглу пишут, что Gemini 3 обладает «логическим уровнем доктора философии» — термин, который также использовал конкурент OpenAI, анонсируя свою модель GPT-5. В качестве доказательства они приводят результаты нескольких тестов, разработанных для проверки знаний «выпускного» уровня, таких как «Последний экзамен человечества» — набор из 2500 исследовательских вопросов по математике, естественным и гуманитарным наукам. Gemini 3 набрал 37,5% на этом тесте, превзойдя предыдущего рекордсмена — версию GPT-5 от OpenAI, которая набрала 26,5%.

Подобные скачки могут указывать на то, что модель стала более эффективной в определённых аспектах, говорит Люк Роше из Оксфордского университета, но нам следует быть осторожными в интерпретации этих результатов. «Если модель меняет свой показатель с 80% до 90% в бенчмарке, что это означает? Означает ли это, что модель была на уровне 80% доктора философии, а теперь достигла 90%? Думаю, это довольно сложно понять», — говорят они. «Не существует численного показателя, который бы позволил определить, обладает ли модель ИИ способностью к рассуждению, поскольку это очень субъективное понятие».

Тесты на соответствие стандартам имеют множество ограничений, например, требуют ответа с одним или несколькими вариантами ответа, для которых модели не обязаны демонстрировать свою работоспособность. «Очень легко использовать вопросы с несколькими вариантами ответа для оценки [моделей]», — говорит Роше, — «но если вы обратитесь к врачу, врач не будет оценивать вас с помощью вопросов с несколькими вариантами ответа. Если вы обратитесь к юристу, юрист не даст вам юридической консультации с вариантами ответов». Существует также риск того, что ответы на такие тесты были замаскированы в обучающие данные тестируемых моделей ИИ, что фактически позволило им мошенничать.

New Scientist. Новости науки и длинные статьи от опытных журналистов, освещающие события в области науки, технологий, здравоохранения и окружающей среды на веб-сайте и в журнале.

По словам Роше, настоящим испытанием для Gemini 3 и самых передовых моделей ИИ (а также для того, будет ли их производительность достаточной, чтобы оправдать триллионы долларов, которые такие компании, как Google и OpenAI, тратят на центры обработки данных ИИ) станет то, как люди используют модель и насколько надежной они ее считают.

Google заявляет, что улучшенные возможности модели позволят ей эффективнее разрабатывать программное обеспечение, организовывать электронную почту и анализировать документы. Компания также заявляет, что она улучшит поиск Google, дополняя результаты, генерируемые ИИ, графикой и симуляциями.

По словам Адама Махди из Оксфордского университета, реальные улучшения, скорее всего, коснутся людей, использующих инструменты ИИ для автономного написания кода. Этот процесс называется агентным кодированием. «Я думаю, мы достигли предела возможностей типичного чат-бота, и реальные преимущества Gemini 3 Pro [стандартной версии Gemini 3], вероятно, проявятся в более сложных, потенциально агентных рабочих процессах, а не в повседневном общении», — говорит он.

 Первой реакцией в сети стали похвалы пользователей за возможности Gemini в области программирования и способность рассуждать, однако, как и в случае со всеми новыми моделями, появились и сообщения, в которых указывалось на неспособность Gemini выполнить, казалось бы, простые задачи, например, обвести нарисованные от руки стрелки, указывающие на разных людей, или пройти простые тесты на визуальное мышление.

В технических характеристиках Gemini 3 Google признаёт, что модель будет периодически давать галлюцинации и давать фактические неточности, примерно с той же частотой, что и другие ведущие модели ИИ. Отсутствие улучшений в этой области вызывает серьёзную обеспокоенность, считает Артур д’Авила Гарсес из Сити Сент-Джорджс при Лондонском университете. «Проблема в том, что все компании, занимающиеся разработкой ИИ, уже более двух лет пытаются уменьшить количество галлюцинаций, но достаточно одной очень серьёзной галлюцинации, чтобы окончательно разрушить доверие к системе», — говорит он.

Источник: www.newscientist.com

✅ Найденные теги: Модель, новости

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Фото сгенерированных лиц: исследование показывает, что люди не могут отличить настоящие лица от сгенерированных
Нейросети построили капитализм за трое суток: 100 агентов Claude заперли…
Скетч: цифровой осьминог и виртуальный мир внутри компьютера с человечком.
Сцена с жестами пальцами, где один жест символизирует "VPN", а другой "KHP".
‼️Paramount купила Warner Bros. Discovery — сумма сделки составила безумные…
Скриншот репозитория GitHub "Claude Scientific Skills" AI для научных исследований.
Структура эффективного запроса Claude с элементами задачи, контекста и референса.
Эскиз и готовая веб-страница платформы для AI-дизайна в современном темном режиме.
ideipro logotyp
Image Not Found
Звёздное небо с галактиками и туманностями, космос, Вселенная, астрофотография.

Система оповещения обсерватории Рубина отправила 800 000 сигналов в первую ночь наблюдений.

Астрономы будут получать оповещения о небесных явлениях в течение нескольких минут после их обнаружения. Теренс О'Брайен, редактор раздела «Выходные». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной…

Мар 2, 2026
Женщина с длинными тёмными волосами в синем свете, нейтральный фон.

Расследование в отношении 61-фунтовой машины, которая «пожирает» пластик и выплевывает кирпичи.

Обзор компактного пресса для мягкого пластика Clear Drop — и что будет дальше. Шон Холлистер, старший редактор Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего…

Мар 2, 2026
Черный углеродное волокно с текстурой плетения, отражающий свет.

Материал будущего: как работает «бессмертный» композит

Учёные из Университета штата Северная Каролина представили композит нового поколения, способный самостоятельно восстанавливаться после серьёзных повреждений.  Речь идёт о модифицированном армированном волокном полимере (FRP), который не просто сохраняет прочность при малом весе, но и способен «залечивать» внутренние…

Мар 2, 2026
Круглый экран с изображением замка и горы, рядом электронная плата.

Круглый дисплей Waveshare для креативных проектов

Круглый 7-дюймовый сенсорный дисплей от Waveshare создан для разработчиков и дизайнеров, которым нужен нестандартный экран.  Это IPS-панель с разрешением 1 080×1 080 пикселей, поддержкой 10-точечного ёмкостного сенсора, оптической склейкой и защитным закалённым стеклом, выполненная в круглом форм-факторе.…

Мар 2, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых