Контекст имеет решающее значение: как Avride использует облачные VLM в качестве систем безопасности для роботов-доставщиков.

04.07.2026 ideipro.ru

Avride интегрировала модели визуального языка в своих роботах-доставщиках. Источник: Аврид

Avride Inc. создала своих роботов-поставщиков на высоком уровне автономности. Каждый день приходится из них самостоятельно перемещаться по осторожным городским улицам, обрабатывая сложные данные датчиков локально на своих бортовых вычислительных устройствах. Наши тротуарные роботы работают с участием человека, самостоятельно справляясь с городскими маневрами, пешеходами и светофорами.

Однако эффективное управление механикой навигации – даже в сложных условиях, таких как узкие дороги или плохая погода – это лишь одна часть уравнения. Чтобы обеспечить правильное поведение робота в необычных, тяжелых или сложных условиях реального мира, требуется другой тип интеллекта.

Чтобы добавить проактивный уровень особой осведомленности, мы интегрировали в свою систему тяжелые облачные модели языка видения (VLM) в качестве оперативного “VLM-наблюдателя.”

Отображение объектов до целостности понимания сцены

Встроенный стек восприятия Авриды уже имеет внешние возможности. Благодаря подключению бортовых датчиков и локальных нейронных сетей наши роботы-доставщики могут находить близлежащих агентов, включая велосипедистов, детей, инвалидные коляски и машины скорой помощи.

Однако, хотя наши встроенные модели могут определять эти элементы, некоторые реальные условия мира требуют гораздо более глубокого уровня контекстуального понимания.

Рассматриваем, как сценарий разворачивается на городской улице. Встреча с полицейским или пожарным на тротуаре может привести к тому, что происходит что-то необычное, но простого обнаружения объектов недостаточно, чтобы понять картину полную.

Например, протокол полицейского, идущего домой после смены, от активного и секретного места преступника — весьма нетривиальная задача. Это требует целостного понимания того, как несколько элементов взаимодействуют в кадре, — сцены, подобные целому сценарию, а не просто контроль списка обнаруженных объектов.

Мы хотим значительно снизить нагрузку на то, что наши роботы-доставщики случайно попадут в активную зону в чрезвычайных ситуациях, пересекут место заражения вирусами или въедут в не нанесенные на карту тяжелые работы, где свежий, влажный цемент выглядит как стандартный серый тротуар. В то время как встроенные модели фиксируют основные объекты, необходимые для навигации, модель со слабым фундаментом в облаке превосходно справляется с этой целостной интерпретацией, мгновенно собирая воедино глубокий семантический контекст всей ситуации.

Отправить свою идею сессии для RoboBusiness 2026

Как это работает: VLM как хранители облаков

Важный уточнение: мы не используем VLM для управления роботом. Использование моделей тяжелого облака для управления в режиме реального времени приводит к возникновению задержек и зависимости от подключения, которые создают угрозу безопасности. Вместо этого VLM действует как маневренная “система раннего радиолокации” для нашей команды удаленной помощи.

Прием данных: Во время автономного вождения робот делает снимок со своей камеры в облаке раз в несколько секунд. Чтобы обеспечить конфиденциальность публики, все визуальные данные автоматически анонимизируются прямо на роботе — при этом лица и номерные знаки локально размываются — прежде чем они покинут бортовой компьютер.
Оценка контекста:В облаке VLM-вотчер обрабатывает потоки кадров, переводя визуальные данные в смысловое описание происходящего на улице. Мы управляем моделью, используя подробную подсказку, которая точно определяет, какие особенности необычных, деликатных или сложных ситуаций следует искать. VLM оценивает угрозу на основе этих конкретных инструкций и учитывает сценарные ошибки с дипломатическими поставками.
Человек в курсе: Если модель заметит метку критической ситуации, она немедленно предупреждает нашу команду удаленной помощи. Затем помощник может просмотреть прямую трансляцию, чтобы убедиться, что робот ведет себя плавно, занимает место, требуемое службой экстренной помощи, или не входит в зону ограниченного доступа.

Поскольку сфера искусственного интеллекта развивает головокружительные темпы, мы не привязываем нашу инфраструктуру к одному поставщику. Мы рассматриваем этот облачный уровень как открытую, готовую использовать архитектуру – постоянно экспериментируем, тестируем и сравниваем новейшие современные модели, чтобы выяснить, что мы всегда используем наиболее доступный семантический интерпретатор.

Вид с камерой робота показывает автономность с сторонним уровнем безопасности: робот самостоятельно уступает сотрудникам службы экстренной реакции, перемещающей каталку. Одновременно облачный наблюдатель VLM отметил необычный контекст, привлекая удаленного помощника для наблюдения за происходящим. Источник: Аврид

Эволюция от интеллектуального анализа данных к реальным операциям

Интеграция рабочей VLM в повседневную деятельность Avride‘#8216;это представляет собой эволюцию наших внутренних инженерных инструментов.

Хранение и обработка каждой минуты видео от сотен роботов, работа каждый день, невероятно дорого и ненужно. Мы не хотим сохранения всех; мы хотим сохранить только те данные, которые действительно помогут нам улучшить наши технологии и обеспечить безопасность.

Исторически мы использовали именно этот 5-секундный процесс анализа прямой трансляции в качестве инструмента фильтрации данных. Облачные VLM отслеживали входящие потоки в режиме реального времени, чтобы автоматически находить редкие и ценные сценарии — например, сложные взаимодействия с животными или сложная инфраструктура — которые мы могли бы безопасно сохранить как предварительные анонимизированные данные для дальнейшей маркировки и обучения.

Поскольку конвейер оказался исключительно лучшим в обнаружении уникального реального контекста в первый момент времени, следующим логическим шагом стало расширение этого инструмента в различных операциях. Если бы система уже была способна определять уникальные контексты в режиме текущего времени, ее можно было бы с тем же самым фондом использовать для запуска живого человеческого контроля.

Мы интегрировали эту инфраструктуру интеллектуального анализа данных непосредственно в наш производственный конвейер, создав плавный мост между передовым искусственным интеллектом и легкой помощью.

Путь вперед: выведение VLM на передний план

Эксплуатация этих моделей в облаке — чрезвычайно эффективное решение на сегодняшний день, но это только начало. Поскольку VLM становится более компактным благодаря методам оптимизации, бортовое робототехническое оборудование следующего поколения становится более мощным, наша конечная цель ясна.

В конце концов, этот глубокий семантический уровень будет перенесен непосредственно из робота бортовых вычислений. Это позволит нашим роботам достичь еще более глубокого уровня принятия решений автономного приема, полностью независимо от сетевого подключения.

А до тех пор, пока наша система безопасности, обеспечивающая передачу данных из облаков на удаленный доступ, гарантирует, что роботы-доставщики Avride останутся вежливыми, ответственными и осведомленными гражданами на тротуаре.

Об авторе

Роман Нефедов — руководитель отдела автономной доставки в Авриде, где он несет полную ответственность за продукт автономной доставки, курируя общие бизнес-операции, а также разработку программного обеспечения. Ранее Нефедов возглавил подразделение компании по разработке роботов-доставщиков, основываясь на более чем полуторадесятилетнем опыте работы в технологическом состоянии в настоящее время.

На протяжении всей своей карьеры он руководил крупными инженерными руководителями и руководил разработкой интеллектуальных устройств и потребительских продуктов в Интернете.

Пост «Контекст — король: Как Avride использует облачные VLM в качестве системы безопасности для роботов-доставщиков» впервые появился в The Robot Report.

Источник