Image

Gemini Robotics: как ИИ от DeepMind помогает роботам планировать и действовать

Искусственный интеллект — это уже не только чат-боты и генераторы изображений. Еще он помогает машинам анализировать обстановку, строить планы и справляться с новыми обстоятельствами. Недавно Google DeepMind представила демонстрацию thinking robotics AI — интеграцию моделей Gemini 1.5 в робототехнические сценарии.

Две экспериментальные версии Gemini 1.5 — VLA (vision-language-action) и ER (embodied reasoning) — работают вместе, чтобы машины могли действовать в реальном мире. Это не просто очередной шаг в развитии автоматизации, а попытка научить роботов понимать, что они делают и зачем. Чем интересен этот подход, где его можно применить и какие вопросы он вызывает? Давайте разберемся.

da2b9d5bf8c601ed7c45856e23e465db

Как роботы научились планировать и действовать

Современные автоматы нередко напоминают прилежных, но ограниченных исполнителей. Они надежно справляются с задачами, для которых созданы, например, со сборкой деталей на производстве или уборкой в помещении. Однако любое отклонение от сценария — новый предмет, сдвинутый объект или изменение освещения — сбивает их с толку. Программное обеспечение требует кастомной настройки под каждую ситуацию, что занимает месяцы. Чтобы сделать мир робототехники проще, Google DeepMind решила изменить подход. Вместо того чтобы заранее прописывать алгоритмы под каждое действие, компания применила генеративный ИИ, уже доказавший свою эффективность в работе с текстами и изображениями. Так появилась система из двух компонентов, которые делают роботов гораздо гибче и самостоятельнее.

Gemini Robotics-ER 1.5 отвечает за анализ и планирование. Она получает текстовые команды и изображения пространства, в котором действует робот, и на их основе выстраивает план. Это похоже на то, как человек мысленно прикидывает порядок шагов: взять инструмент, переставить деталь, закрепить ее. Модель оценивает расположение предметов и возможные помехи, выбирая, как удобнее поступить. Например, если на пути окажется упавший стул, она скорректирует маршрут, чтобы обойти его. Иногда система может обратиться к дополнительным инструментам, вроде Google Search, но лишь при крайней необходимости.

Gemini Robotics 1.5 (VLA, vision-language-action model) отслеживает окружение в реальном времени и управляет манипуляторами. Ее сила — в способности точно выполнять инструкции, взаимодействуя с изменчивой средой. Такой подход позволяет решать задачи, которые ранее были недоступны для механизмов.

Иллюстрация системы Gemini Robotics-ER 1.5, сортирующей отходы по правилам Сан-Франциско: зеленая корзина — компост, синяя — переработка, черная — мусор, с учетом запроса пользователя о локации. Источник
Иллюстрация системы Gemini Robotics-ER 1.5, сортирующей отходы по правилам Сан-Франциско: зеленая корзина — компост, синяя — переработка, черная — мусор, с учетом запроса пользователя о локации. Источник

Обе модели созданы на базе Gemini и «допилены» так, чтобы понимать движения и работать с реальными объектами. Благодаря этому такие системы могут выполнять сложные задачи из нескольких шагов и подстраиваться под изменения. Еще одно преимущество — навыки, полученные на одном роботе, можно применять на другом. Например, то, чему модель научилась на манипуляторе Aloha 2, частично подходит и для гуманоидного робота Apollo от Apptronik — нужно лишь учесть разницу в конструкции.

Демонстрация Gemini Robotics, проведенная DeepMind в сентябре 2025 года, показала, как роботы могут выполнять задачи и адаптироваться к изменениям обстановки в лабораторных условиях. Пока это только эксперименты, но они приближают создание более автономных систем, которые смогут работать без постоянного участия человека. Сейчас инженеры улучшают точность моделей и готовят их к применению за пределами лаборатории.

А где все это использовать?

A triptych image of different robot types completing tasks of varying complexity, such as sorting, tidying and planning.
Источник

Новинка может заметно изменить промышленную автоматизацию. Так, сегодня роботы действуют по жестким сценариям: они отлично выполняют рутинные действия, но не умеют реагировать на неожиданности. Gemini Robotics добавляет гибкости — такие системы способны оценивать обстановку, обходить препятствия и подстраиваться под работу человека. Например, автомат на складе может не просто переносить коробки по заданному маршруту, а сам решать, в каком порядке это сделать, чтобы сэкономить время и не столкнуться с другими работниками или техникой.

В повседневной жизни такие системы могли бы заметно упростить рутину. Представьте помощника, который сам разбирает посуду или собирает игрушки, реагируя на беспорядок в комнате. Сейчас Gemini Robotics-ER 1.5 тестируется через платформу Google AI Studio — доступ к ней есть лишь у небольшой группы разработчиков. Эти эксперименты пока не связаны с бытом напрямую, но именно они оттачивают механизмы восприятия и планирования, которые в будущем станут основой для домашних ассистентов.

Медицина — еще одно направление, где такие технологии могут принести пользу. А еще роботы начнут ухаживать за пациентами: давать лекарства, искать нужные инструменты или следить за самочувствием человека.  

Новая модель Gemini Robotics от Google будет служить «мозгом робота» для Apollo компании Apptronik. Источник
Новая модель Gemini Robotics от Google будет служить «мозгом робота» для Apollo компании Apptronik. Источник

Что еще? Конечно, образование. Представьте робота, который помогает ребенку учиться, подстраиваясь под его настроение и способ восприятия. Активному ученику он предложит игру или задачу с движением, а тем, кто любит размышлять, — спокойное объяснение и текстовые примеры. 

Делаем мир роботов безопасным

Такие технологии открывают большие возможности, но вместе с ними приходят и риски. Их нужно исключить, так как робот, который действует по собственному плану, должен быть абсолютно надежным. Ошибка на производстве может привести к поломке или травме, а в медицине — даже поставить под угрозу жизнь. DeepMind тщательно тестирует свои системы, но до массового внедрения еще далеко: разработчики продолжают искать, как сделать их устойчивыми и предсказуемыми даже в непредвиденных ситуациях.

Неудивительно, что исследователи и инженеры все чаще вспоминают законы робототехники Айзека Азимова — те самые три правила, по которым робот не может причинить вред человеку и обязан подчиняться, если это не угрожает безопасности. Когда-то они казались фантастикой, а сегодня превращаются в своего рода моральный ориентир: чем умнее становятся машины, тем важнее заранее определить границы их самостоятельности.

DeepMind уже применяет многоуровневую систему проверки действий: перед выполнением команда проходит оценку на уровне модели планирования, затем подтверждается на уровне исполнительной модели и только после этого превращается в физическое действие. Такой каскад снижает вероятность ошибок и делает поведение робота более предсказуемым. Кроме того, разработчики обучают модели на сценариях с потенциальными сбоями — чтобы система не просто выполняла задачу, но и умела вовремя остановиться при угрозе.

Вопросы безопасности выходят и за рамки техники. Если роботы должны действовать в одном пространстве с людьми, им нужно не только распознавать объекты, но и понимать намерения — где человек движется, что пытается сделать, как реагирует. Это требует развития поведенческих моделей, способных учитывать контекст и эмоции. Такие функции пока находятся в зачаточном состоянии, но именно они станут решающими для того, чтобы человек и машина могли безопасно работать бок о бок.

Что в итоге

Демонстрация Gemini Robotics — только начало пути. Она показывает, как модели на базе Gemini учатся планировать действия и стабильно работать в меняющейся среде. Сейчас VLA доступна только узкому кругу тестировщиков, а ER проходит ограниченные испытания в Google AI Studio. Эти эксперименты формируют основу для будущих систем, которые смогут не просто выполнять команды, а действовать как полноценные помощники.

Дальнейшее развитие потребует времени и практики. Разработчикам предстоит улучшить стабильность моделей, сделать их безопаснее и совместимее с разными типами роботов. Испытания вроде переноса навыков между платформами Aloha 2 и Apollo показывают, что прогресс есть, но впереди еще много ограничений, которые нужно преодолеть. Gemini Robotics остается экспериментом, но именно такие проекты постепенно превращают идею «умных» машин в реальную технологию.

64580686b773065912100e8f1938f4f1

Источник: habr.com

✅ Найденные теги: Gemini, новости

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Фото сгенерированных лиц: исследование показывает, что люди не могут отличить настоящие лица от сгенерированных
Нейросети построили капитализм за трое суток: 100 агентов Claude заперли…
Скетч: цифровой осьминог и виртуальный мир внутри компьютера с человечком.
Сцена с жестами пальцами, где один жест символизирует "VPN", а другой "KHP".
‼️Paramount купила Warner Bros. Discovery — сумма сделки составила безумные…
Скриншот репозитория GitHub "Claude Scientific Skills" AI для научных исследований.
Структура эффективного запроса Claude с элементами задачи, контекста и референса.
Эскиз и готовая веб-страница платформы для AI-дизайна в современном темном режиме.
ideipro logotyp
Image Not Found
Звёздное небо с галактиками и туманностями, космос, Вселенная, астрофотография.

Система оповещения обсерватории Рубина отправила 800 000 сигналов в первую ночь наблюдений.

Астрономы будут получать оповещения о небесных явлениях в течение нескольких минут после их обнаружения. Теренс О'Брайен, редактор раздела «Выходные». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной…

Мар 2, 2026
Женщина с длинными тёмными волосами в синем свете, нейтральный фон.

Расследование в отношении 61-фунтовой машины, которая «пожирает» пластик и выплевывает кирпичи.

Обзор компактного пресса для мягкого пластика Clear Drop — и что будет дальше. Шон Холлистер, старший редактор Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего…

Мар 2, 2026
Черный углеродное волокно с текстурой плетения, отражающий свет.

Материал будущего: как работает «бессмертный» композит

Учёные из Университета штата Северная Каролина представили композит нового поколения, способный самостоятельно восстанавливаться после серьёзных повреждений.  Речь идёт о модифицированном армированном волокном полимере (FRP), который не просто сохраняет прочность при малом весе, но и способен «залечивать» внутренние…

Мар 2, 2026
Круглый экран с изображением замка и горы, рядом электронная плата.

Круглый дисплей Waveshare для креативных проектов

Круглый 7-дюймовый сенсорный дисплей от Waveshare создан для разработчиков и дизайнеров, которым нужен нестандартный экран.  Это IPS-панель с разрешением 1 080×1 080 пикселей, поддержкой 10-точечного ёмкостного сенсора, оптической склейкой и защитным закалённым стеклом, выполненная в круглом форм-факторе.…

Мар 2, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых