Image

Gemini Robotics: как ИИ от DeepMind помогает роботам планировать и действовать

Искусственный интеллект — это уже не только чат-боты и генераторы изображений. Еще он помогает машинам анализировать обстановку, строить планы и справляться с новыми обстоятельствами. Недавно Google DeepMind представила демонстрацию thinking robotics AI — интеграцию моделей Gemini 1.5 в робототехнические сценарии.

Две экспериментальные версии Gemini 1.5 — VLA (vision-language-action) и ER (embodied reasoning) — работают вместе, чтобы машины могли действовать в реальном мире. Это не просто очередной шаг в развитии автоматизации, а попытка научить роботов понимать, что они делают и зачем. Чем интересен этот подход, где его можно применить и какие вопросы он вызывает? Давайте разберемся.

da2b9d5bf8c601ed7c45856e23e465db

Как роботы научились планировать и действовать

Современные автоматы нередко напоминают прилежных, но ограниченных исполнителей. Они надежно справляются с задачами, для которых созданы, например, со сборкой деталей на производстве или уборкой в помещении. Однако любое отклонение от сценария — новый предмет, сдвинутый объект или изменение освещения — сбивает их с толку. Программное обеспечение требует кастомной настройки под каждую ситуацию, что занимает месяцы. Чтобы сделать мир робототехники проще, Google DeepMind решила изменить подход. Вместо того чтобы заранее прописывать алгоритмы под каждое действие, компания применила генеративный ИИ, уже доказавший свою эффективность в работе с текстами и изображениями. Так появилась система из двух компонентов, которые делают роботов гораздо гибче и самостоятельнее.

Gemini Robotics-ER 1.5 отвечает за анализ и планирование. Она получает текстовые команды и изображения пространства, в котором действует робот, и на их основе выстраивает план. Это похоже на то, как человек мысленно прикидывает порядок шагов: взять инструмент, переставить деталь, закрепить ее. Модель оценивает расположение предметов и возможные помехи, выбирая, как удобнее поступить. Например, если на пути окажется упавший стул, она скорректирует маршрут, чтобы обойти его. Иногда система может обратиться к дополнительным инструментам, вроде Google Search, но лишь при крайней необходимости.

Gemini Robotics 1.5 (VLA, vision-language-action model) отслеживает окружение в реальном времени и управляет манипуляторами. Ее сила — в способности точно выполнять инструкции, взаимодействуя с изменчивой средой. Такой подход позволяет решать задачи, которые ранее были недоступны для механизмов.

Иллюстрация системы Gemini Robotics-ER 1.5, сортирующей отходы по правилам Сан-Франциско: зеленая корзина — компост, синяя — переработка, черная — мусор, с учетом запроса пользователя о локации. Источник
Иллюстрация системы Gemini Robotics-ER 1.5, сортирующей отходы по правилам Сан-Франциско: зеленая корзина — компост, синяя — переработка, черная — мусор, с учетом запроса пользователя о локации. Источник

Обе модели созданы на базе Gemini и «допилены» так, чтобы понимать движения и работать с реальными объектами. Благодаря этому такие системы могут выполнять сложные задачи из нескольких шагов и подстраиваться под изменения. Еще одно преимущество — навыки, полученные на одном роботе, можно применять на другом. Например, то, чему модель научилась на манипуляторе Aloha 2, частично подходит и для гуманоидного робота Apollo от Apptronik — нужно лишь учесть разницу в конструкции.

Демонстрация Gemini Robotics, проведенная DeepMind в сентябре 2025 года, показала, как роботы могут выполнять задачи и адаптироваться к изменениям обстановки в лабораторных условиях. Пока это только эксперименты, но они приближают создание более автономных систем, которые смогут работать без постоянного участия человека. Сейчас инженеры улучшают точность моделей и готовят их к применению за пределами лаборатории.

А где все это использовать?

A triptych image of different robot types completing tasks of varying complexity, such as sorting, tidying and planning.
Источник

Новинка может заметно изменить промышленную автоматизацию. Так, сегодня роботы действуют по жестким сценариям: они отлично выполняют рутинные действия, но не умеют реагировать на неожиданности. Gemini Robotics добавляет гибкости — такие системы способны оценивать обстановку, обходить препятствия и подстраиваться под работу человека. Например, автомат на складе может не просто переносить коробки по заданному маршруту, а сам решать, в каком порядке это сделать, чтобы сэкономить время и не столкнуться с другими работниками или техникой.

В повседневной жизни такие системы могли бы заметно упростить рутину. Представьте помощника, который сам разбирает посуду или собирает игрушки, реагируя на беспорядок в комнате. Сейчас Gemini Robotics-ER 1.5 тестируется через платформу Google AI Studio — доступ к ней есть лишь у небольшой группы разработчиков. Эти эксперименты пока не связаны с бытом напрямую, но именно они оттачивают механизмы восприятия и планирования, которые в будущем станут основой для домашних ассистентов.

Медицина — еще одно направление, где такие технологии могут принести пользу. А еще роботы начнут ухаживать за пациентами: давать лекарства, искать нужные инструменты или следить за самочувствием человека.  

Новая модель Gemini Robotics от Google будет служить «мозгом робота» для Apollo компании Apptronik. Источник
Новая модель Gemini Robotics от Google будет служить «мозгом робота» для Apollo компании Apptronik. Источник

Что еще? Конечно, образование. Представьте робота, который помогает ребенку учиться, подстраиваясь под его настроение и способ восприятия. Активному ученику он предложит игру или задачу с движением, а тем, кто любит размышлять, — спокойное объяснение и текстовые примеры. 

Делаем мир роботов безопасным

Такие технологии открывают большие возможности, но вместе с ними приходят и риски. Их нужно исключить, так как робот, который действует по собственному плану, должен быть абсолютно надежным. Ошибка на производстве может привести к поломке или травме, а в медицине — даже поставить под угрозу жизнь. DeepMind тщательно тестирует свои системы, но до массового внедрения еще далеко: разработчики продолжают искать, как сделать их устойчивыми и предсказуемыми даже в непредвиденных ситуациях.

Неудивительно, что исследователи и инженеры все чаще вспоминают законы робототехники Айзека Азимова — те самые три правила, по которым робот не может причинить вред человеку и обязан подчиняться, если это не угрожает безопасности. Когда-то они казались фантастикой, а сегодня превращаются в своего рода моральный ориентир: чем умнее становятся машины, тем важнее заранее определить границы их самостоятельности.

DeepMind уже применяет многоуровневую систему проверки действий: перед выполнением команда проходит оценку на уровне модели планирования, затем подтверждается на уровне исполнительной модели и только после этого превращается в физическое действие. Такой каскад снижает вероятность ошибок и делает поведение робота более предсказуемым. Кроме того, разработчики обучают модели на сценариях с потенциальными сбоями — чтобы система не просто выполняла задачу, но и умела вовремя остановиться при угрозе.

Вопросы безопасности выходят и за рамки техники. Если роботы должны действовать в одном пространстве с людьми, им нужно не только распознавать объекты, но и понимать намерения — где человек движется, что пытается сделать, как реагирует. Это требует развития поведенческих моделей, способных учитывать контекст и эмоции. Такие функции пока находятся в зачаточном состоянии, но именно они станут решающими для того, чтобы человек и машина могли безопасно работать бок о бок.

Что в итоге

Демонстрация Gemini Robotics — только начало пути. Она показывает, как модели на базе Gemini учатся планировать действия и стабильно работать в меняющейся среде. Сейчас VLA доступна только узкому кругу тестировщиков, а ER проходит ограниченные испытания в Google AI Studio. Эти эксперименты формируют основу для будущих систем, которые смогут не просто выполнять команды, а действовать как полноценные помощники.

Дальнейшее развитие потребует времени и практики. Разработчикам предстоит улучшить стабильность моделей, сделать их безопаснее и совместимее с разными типами роботов. Испытания вроде переноса навыков между платформами Aloha 2 и Apollo показывают, что прогресс есть, но впереди еще много ограничений, которые нужно преодолеть. Gemini Robotics остается экспериментом, но именно такие проекты постепенно превращают идею «умных» машин в реальную технологию.

64580686b773065912100e8f1938f4f1

Источник: habr.com

✅ Найденные теги: Gemini, новости

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Огромный омар на морском дне, окружённый крабами и рыбой.
Графики сравнения производительности: агенты, кодирование, изображение, видео.
Диаграммы сравнений производительности ИИ для задач агентов, кодирования, изображений и видео.
Графики сравнения производительности ИИ-агентов в задачах по категориям: агенты, код, изображение, видео.
ideipro logotyp
Скриншот сайта Anna's Archive с базой данных книг и научных статей.
ideipro logotyp
ideipro logotyp
ideipro logotyp
Image Not Found
ideipro logotyp

Claude in PowerPoint — редактирование презентаций в реальном времени Anthropic…

Claude in PowerPoint — редактирование презентаций в реальном времени Anthropic запустили бета-версию Claude in PowerPoint — ассистент…

Фев 21, 2026
Экран выбора области для общего доступа в приложении, выделена вся область экрана.

💻 Разбираемся с любым непонятным интерфейсом. Screen Vision — это…

💻 Разбираемся с любым непонятным интерфейсом. Screen Vision — это ИИ-ассистент, который смотрит, что происходит на вашем экране и…

Фев 21, 2026
Ноутбук с интернет-технологиями, соцсети, микрофон, поиск, иконки на синем фоне.

Как собрать свой ИИ‑набор инструментов в 2026: текст, картинки, видео, голос

В 2026 году вокруг ИИ уже не «новая игрушка», а вполне рабочий инструмент, который реально экономит время и нервы. Проблема в том, что…

Фев 21, 2026
Сайт AI Top Tools — крупнейший каталог AI инструментов и новостей.

Это самая большая и подробная библиотека нейросетей — больше 10…

Это самая большая и подробная библиотека нейросетей — больше 10 000 сервисов в одном месте. Новые тулзы добавляют очень быстро, а самое…

Фев 20, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых