Новая модель рекламируется как более контекстно-зависимая, чем когда-либо.

Компания Google сегодня представила Gemini 3 — крупное обновление своей флагманской мультимодальной модели. Компания заявляет, что новая модель лучше справляется с рассуждениями, обладает более гибкими мультимодальными возможностями (способностью работать с голосом, текстом и изображениями) и будет работать как агент.
Предыдущая модель, Gemini 2.5, поддерживала мультимодальный ввод. Пользователи могли вводить изображения, рукописный текст или голос. Но обычно требовалось явное указание желаемого формата, и по умолчанию выводился обычный текст.
Однако Gemini 3 представляет то, что Google называет «генеративными интерфейсами», которые позволяют модели самостоятельно выбирать, какой тип вывода лучше всего соответствует подсказке, самостоятельно собирая визуальные макеты и динамические представления вместо того, чтобы возвращать блок текста.
Попросите рекомендации по путешествиям, и внутри приложения может появиться интерфейс, похожий на веб-сайт, с модулями, изображениями и подсказками, например: «Сколько дней вы путешествуете?» или «Какие виды деятельности вам нравятся?». Приложение также предоставит вам интерактивные опции, которые помогут вам определить, что вам может понадобиться в дальнейшем.
Когда Gemini 3 просят объяснить какую-либо концепцию, он может нарисовать схему или самостоятельно сгенерировать простую анимацию, если посчитает, что наглядное представление будет более эффективным.
Связанная история
«Визуальная компоновка создаёт захватывающий вид, напоминающий журнал, с фотографиями и модулями», — говорит Джош Вудворд, вице-президент Google Labs, Gemini и AI Studio. «Эти элементы не только хорошо выглядят, но и побуждают вас вносить свой вклад для дальнейшей адаптации результатов».
В Gemini 3 Google также представляет Gemini Agent — экспериментальную функцию, предназначенную для выполнения многоэтапных задач непосредственно в приложении. Агент может подключаться к таким сервисам, как Google Календарь, Gmail и Напоминания. Получив доступ, он может выполнять такие задачи, как организация входящих сообщений или управление расписаниями.
Подобно другим агентам, он разбивает задачи на отдельные этапы, отображает ход выполнения в режиме реального времени и делает паузу для подтверждения пользователем, прежде чем продолжить работу. Google описывает эту функцию как шаг к «подлинному универсальному агенту». Функция будет доступна в интернете для подписчиков Google AI Ultra в США с 18 ноября.
Общий подход может показаться очень похожим на «виброкодирование», когда пользователи описывают конечную цель простым языком и позволяют модели собирать интерфейс или код, необходимые для ее достижения.
Обновление также более тесно связывает Gemini с существующими продуктами Google. В Поиске ограниченная группа подписчиков Google AI Pro и Ultra теперь может перейти на Gemini 3 Pro, версию новой модели с логическим подходом, чтобы получать более глубокие и подробные сводки, генерируемые ИИ, основанные на логическом подходе модели, а не на существующем режиме ИИ.
Для шопинга Gemini теперь будет использовать данные из Shopping Graph от Google, который, по словам компании, содержит более 50 миллиардов позиций товаров, для создания собственных рекомендаций. Пользователям достаточно задать вопрос, связанный с покупками, или выполнить поиск по фразе, связанной с покупками, и модель сформирует интерактивную рекомендацию в стиле Wirecutter, полную цен и подробностей о товарах, без перенаправления на внешний сайт.
Для разработчиков Google также продвигает разработку программного обеспечения в едином окне. Компания представила Google Antigravity — платформу разработки, которая представляет собой универсальное пространство, где можно создавать и управлять кодом, инструментами и рабочими процессами из одного окна.
Дерек Ни, генеральный директор Flowith, приложения для агентского ИИ, рассказал MIT Technology Review, что Gemini 3 Pro устраняет ряд пробелов в предыдущих моделях. Среди улучшений — более глубокое визуальное восприятие, более эффективная генерация кода и более высокая производительность при выполнении длительных задач — функции, которые он считает крайне важными для разработчиков приложений и агентов ИИ.
«Учитывая преимущества в скорости и стоимости, мы интегрируем новую модель в наш продукт», — говорит он. «Мы с оптимизмом смотрим на её потенциал, но нам необходимо более глубокое тестирование, чтобы понять, насколько далеко она способна продвинуться».
Источник: www.technologyreview.com



























