Репортаж с ICRA 2026 из Вены

17.06.2026 ideipro.ru

Привет, Хабр! На связи снова Александр Панов, директор лаборатории когнитивных систем искусственного интеллекта AIRI и Центра когнитивного моделирования в Институте искусственного интеллекта МФТИ.

Как и в прошлые разы, я хочу поделиться с вами впечатлениями от конференции, в которой мне и моим коллегам по научной группе довелось принять активное участие. На этот раз речь пойдёт о крупнейшем научном событии в робототехнике — конференции ICRA 2026, проходившей с 1 по 5 июня в дождливой, но гостеприимной Вене.

Внутри много выжимок из статей и докладов, фото, а также видео с традиционного робопарада!

Что за мероприятие?

ICRA расшифровывается как International Conference on Robotics and Automation, то есть центральная тема — это робототехника и автоматизация. Серия с большой историей, я уже немного рассказывал про неё в прошлом репортаже про ICRA 2024, почитать можно тут.

Среди ключевых тем этого года — обучение с подкреплением, глубокое обучение для перцепции, имитационное обучение, планирование движения и локализация. Конференция неумолимо трансформируется в площадку, посвященную обучаемым подходам, продолжая свою конкуренцию с молодой конференцией CoRL. Подавляющее большинство публикаций ожидаемо поступает из Китая и США, но и Россия тоже заметна на этом празднике роботов — отрадно, что почти половина отечественных статей в этом году подготовлена нашей научной группой. А вот на выставке (про неё ниже) — полное доминирование Китая, даже несмотря на то, что конференция проходит в Европе: 70 компаний из Китая, и по 20 из США, Германии и Австрии.

По доброй традиции показываю пакет участника:

Спонсоры не подкачали и сразу на месте снабдили шоколадом и бутылочкой для воды. Видимо, пытались сказать, что дальше будет жарко во всех смыслах этого слова😉

Основной трек конференции длился три дня (со 2 по 4 июня), но мероприятие началось бодро с воркшопов, которых здесь собралось целых 70 штук на любой вкус и цвет. Разумеется, всё не посетить, но про те, на которых я побывал, расскажу подробно.

1 июня. Воркшопы и открытие

Начну с воркшопа Generative Digital Twins for Real2Sim and Sim2Real Transfer in Robotics с очень представительным составом участников. Тема улучшения симуляторов и внедрения в них генеративных моделей сейчас критически важна в эпоху слабого масштабирования потока данных с реальных демонстраций.

Открывал день Hengshuang Zhao из Гонконга с беглым обзором техник анализа и синтеза 3D‑реконструкций и облаков точек для VLA. Из мощного у них выделяются PointWorld (масштабирование 3D‑моделей для задач манипуляции) и PlayerOne (генерация симуляционного видео по картинке от первого лица). Не обошлось и без обсуждения VLA: были представлены Any3D‑VLA для повышения стабильности работы моделей и свежая DreamAvoid про test‑time планирование для избегания ошибок стратегии.

Затем выступил Steve Xie, CEO компании Lightwheel, создающей симуляционные среды на заказ. Он справедливо упирал на то, что для манипуляционной робототехники нужно в 1000 раз больше данных, чем для беспилотников, и симуляция — это единственный масштабируемый путь для обучения и оценки физического ИИ. Из открытых исследований его команды стоит отметить LeHome про симуляцию работы с деформируемыми объектами.

Невероятно производительный Jiajun Wu (в этом году у него 6 статей только на ICRA!) рассказывал про физически правдоподобных цифровых двойников. Он выделил две основные парадигмы:

Самоконтролируемое обучение с дифференцируемыми симуляторами (тут крутая работа NEUROK про генеративную кинематику).
Преобразование состояний из видеомоделей в 4D‑представления с помощью гибридных нейрофизических симуляторов (например, World of Dynamic Objects и генератор сцен по одному изображению WonderPlay).

Отличный доклад прочитал Ajay Mandlekar из NVIDIA, представив SimFoundry, — систему для автоматического создания цифровых двойников и аналогов сцен на основе видеоданных реального мира. Также он упомянул расширение области применения симуляций с помощью SoftMimicGen для деформируемого манипулирования и Humanoid Generation для локомоции. Обе работы основаны на ранней модели MimicGen, решающей проблему генерации синтетических данных по небольшому числу демонстраций.

В конце этого воркшопа Manolis Savva затронул программную генерацию 3D‑представлений (работы SceneMotifCoder, SINGAPO и iTACO), а Ingmar Posner из Оксфорда порадовал докладом про объектно‑центричные модели мира, особенно выделив работу SPARTAN со специальным вариантом разреженной матрицы внимания для лучшего моделирования причинно‑следственных отношений.

Также я заглянул на Workshop on Reinforcement Learning in the Era of Imitation Learning. Гвоздями программы там были Сергей Левайн и Челси Финн, выступавшие онлайн. Сергей описывал симбиоз между специализированными алгоритмами (фреймворк SeRL) и универсальными моделями (фреймворк RLT), а также использование обуславливания без классификатора (CFG) для создания моделей pi0.6 и pi0.7. Челси делилась рецептом итеративного офлайн‑обучения с подкреплением для задач с длинным горизонтом (на примере варки эспрессо процент успеха вырос с 40% до 90%). Её аспирант Perry Dong представил алгоритмы EXPO и EXPO‑FT, предназначенные для стабильного онлайн‑дообучения диффузионных стратегий всего на 19 минутах данных.

В первый день ещё успели провести и открытие конференции с разнообразной занимательной статистикой. Например, что из почти 5К статей отобрали 1.8К — уровень принятия традиционно довольно высокий, выше 30%.

Больше статистики было в презентации. Прошу прощения за качество и ватермарку, фоткал из зала.

2 июня. Основная часть, день первый

В этот день началась сверхплотная программа: одновременно шли постерные сессии (по 500 постеров 2 раза в день), короткие кейноуты от заслуженных ученых, панельные дискуссии и технические доклады. А помимо всего тут ещё шла выставка на 100+ компаний. Постерные сессии были организованы хорошо — немножко тесновато, но зато много места для самого постера, есть столики поставить своего робота, ноутбук с демонстрацией или просто расположить чай/кофе.

Утро открылось пленарным докладом оригинального Ken Goldberg с темой “A Tale of Two Cultures: Can Agentic Coding Close the Gap?”. Его главный посыл заключался в том, что старую добрую инженерию нужно правильно сочетать с современными VLA‑моделями на больших данных. Он продвигал агентное кодирование CaP‑X и бенчмарк Libero‑Pro. Кен подчеркнул, что VLA‑модели резко теряют устойчивость при увеличении вариативности условий, поэтому их нужно подкреплять инженерными структурами, а успех такого гибридного подхода он продемонстрировал на примере проекта Dex‑Net, переросшего в коммерческую систему AmbiSort.

На кейноутах были короткие выступления по теме навигации в стиле стендапа. Первый спикер Johannes Betz из TUM рассказал про сверхбыструю навигацию гоночных беспилотников Формулы-1 на скоростях за 200 км/ч (советую их обзор Foundation Models in Autonomous Driving). Aniket Bera из Purdue University обсудил безопасную навигацию в неструктурированной среде (работы FlashSLAM и SELP), подчеркнув, что LLM должны быть лишь источником предложений, а не конечным арбитром безопасности. Hesheng Wang показал применение 4D‑реконструкции динамических сцен и семантического SLAM в работах ARFlow и когнитивных графах.

На сессии финалистов на лучшие статьи (award finalists) были представлены отлично проработанные работы:

Uncertainty Comes for Free — использование оценки неопределенности диффузионных моделей для масштабируемого запроса помощи от человека (вместо постоянного human‑in‑the‑loop).
IMR‑LLM — автоматическая генерация графа операций для промышленного планирования с помощью LLM с возможностью верификации формальным солвером.
ETac — легкий и эффективный симулятор тактильного взаимодействия, позволяющий обучать стратегии манипуляции только на тактильной обратной связи.
Ro‑To‑Go! — нейросимвольный подход с использованием сигнальной темпоральной логики для реактивного управления роботом в динамической среде.

В этот день мы не только смотрели чужие постеры, но и представляли свой: Knowledge‑Guided Manipulation Using Multi‑Task Reinforcement Learning. Наш метод объединяет 3D‑графы знаний сцены с RL, что критически помогает не забывать нужную информацию в ситуациях с частичной наблюдаемостью.

Вечером я заглянул на собрание членов сообщества IEEE RAS (членом которого я, кстати, являюсь), где обсуждали влияние ИИ на написание статей. Провели прямо тут на месте несколько онлайн опросов — больше посмеяться и для создания видимости участия в принятии решений 😉. Было принято полезное решение ввести ИИ‑валидацию поданных публикаций и протестировать ассист ИИ‑рецензента, как на ведущих конференциях типа AAAI (кстати, в феврале я делал репортаж оттуда).

3 июня. Основная часть, экватор

Третий день стал экватором конференции. На сессии финалистов вновь отметились сильные работы:

Dexora — open‑source VLA для телеоперации с задержкой 11 мс, где товарищи применяют кинематическую фильтрацию для отбора «хороших» траекторий.
Robotic Dexterous Manipulation Via Anisotropic Friction Modulation Using Passive Rollers — оригинальный схват с пассивными роликами на пальцах, позволяющий делать сложные манипуляции вроде скручивания колпачков.
Bi‑Adapt — эффективная few‑shot адаптация бимануальных манипуляций для неизвестных категорий объектов с использованием семантического соответствия.
OmniRetarget — переразметка демонстраций от человека к гуманоидам на основе интерактивного мэша с сохранением физических контактов.
Push Anything — онлайн‑моделирование и планирование контактов для сложных задач толкания объектов.
Design and Implementation of an Angle‑Bisecting Foot Mechanism for a Leg‑Wheel Transformable Robot — классическая разработка трансформируемого робота с ногами и колесами.

Пленарный доклад Barbara Mazzolai про биологически правдоподобных роботов (растущие корни, мягкие щупальца) был зрелищным, но после первого удивления приходит резонный вопрос — зачем все так усложнять и нужно ли такое прямой подражание? Тем не менее, её аргументы о высокой энергоэффективности организмов и проблеме электронных отходов при массовом внедрении роботов звучат более чем резонно.

На послеобеденных кейноутах Jeannette Bohg (доклад “Do We Still Need Dexterous Hands?”) аргументировала критическую необходимость пятипалых антропоморфных рук для тонкой работы с инструментами, показав технологию SimToolReal. Следом Nikos Tsagarakis представил концепции реконфигурируемых модульных роботов, которые обеспечивают гибкость в неструктурированных промышленных условиях. Больше послушать не успел.

Мы утром презентовали еще одну свою работу — Dynamic Neural Potential Field: Online Trajectory Optimization in Presence of Moving Obstacles. Наш метод генерирует потенциальное поле с помощью нейросети и передает градиент в функцию MPC, что позволяет строить безопасные и гладкие траектории объезда препятствий в реальном времени.

Наконец, дошла очередь до выставки. Огромное количество антропоморфных роботов и пятипалых схватов с тактильными датчиками подтверждает, что манипуляция — абсолютный тренд современности, хотя действительно полезных прикладных кейсов пока демонстрируется немного.

Несколько фотозарисовок с выставки. На самом деле, я нафоткал и наснимал гораздо больше, кому любопытно, приглашаю к себе в канал.

Не обошлось и без традиционного робопарада:

4 июня. Основная часть, финал и награждения

В заключительный день основной программы пленарный доклад читал заслуженный Roland Siegwart из ETH с впечатляющим индексом Хирша — 155. Он рассказал об эволюции воздушной робототехники: от рекордов автономного полета в 81 час до будущих омнидирекциональных дронов, способных безопасно выполнять физический контакт (инспекция, рисование, фрезерование на поверхностях).

Разнообразные кейноуты открыл David Hsu из Сингапура. Его центральная идея заключалась в гибридизации структурированных представлений (MDP, формальные языки) с LLM для безопасного принятия решений роботами в открытом мире (на примере ApBot). Эту же мысль продолжила Stefanie Tellex из Brown University, отметив, что параметризованные навыки и языки типа PDDL повышают объяснимость и переносимость в сравнении с нестабильными end‑to‑end моделями. Noémie Jaquier из Швеции погрузилась в индуктивные смещения на основе геометрии и многообразий (SO(3), SE(3)), улучшающие стабильность моделей. В заключении Paolo Robuffo Giordano показал, как введение «трубок неопределенности» и робастный MPC улучшают переносимость стратегий из симуляции в реальность.

Из устных докладов по «обычным» статьям c сессии Robotic Learning II, где я успел побывать, я бы отметил:

SVR‑GS — рендеринг вероятностных масок для ускорения 3D Gaussian Splatting в 5 раз при минимальной потере качества.
TADPO — дистилляция действий планировщика в реактивный RL‑контроллер для устойчивой навигации по бездорожью.
Learning Problem Decomposition for Efficient Sequential Multi‑Object Manipulation Planning — извлечение замкнутых циклов и подзадач из демонстраций для эффективного мульти‑объектного планирования.
Motion Generation for Modular Robots Using Hierarchical Policies — оригинальная работа с модульными роботами обучение иерархических стратегий для них. Для MoonBot с различными конфигурациями обучают элементарные способности модулей и на их основе синтезируют стабильные целостные движения, преодолевая рост размерности действий и нестабильность.

В IEEE любят друг друга награждать разными дипломами и грамотами. Организаторы пожертвовали обедом ради церемонии награждения лучших статей. Вот победители:

Секция автоматизации: уже упомянутая IMR‑LLM.
Секция обучения: Do You Know Where Your Camera Is?
Секция взаимодействия с человеком: HEXAR.
Секция механизмы и дизайн: Relaxation Dynamics…
Секция медицинские роботы — Geometry‑Aware…
Секция мультироботов: Dynamics Modeling…
Секция манипуляции и локомоции: финалист OmniRetarget.
Секция перцепции: FindAnything.
Секция сервисных роботов: Planar‑Sector…

Отдельно хотел бы поздравить команду Центра робототехники Сбера, которая заняла на местном соревновании от AgiBot по VLA моделям для разных манипуляционных задач заняли третье место! Молодцы🎉!

5 июня. Воркшопы и закрытие

В завершающий день были воркшопы самой разной тематики: от космических роверов до VLA моделей. Я, конечно, выбрал парочку, которые связаны с последними.

На воркшопе Bridging the Gap between Robot Learning and Human‑Robot Interaction Erdem Bıyık из USC объяснял, что коллаборативный робот должен выстраивать двунаправленную коммуникацию, похожую на ту, как люди учат друг друга (отмечу его работы Hand me the data и Robometer). Под занавес конференции Roberto Martín‑Martín из Техаса презентовал систему MIcobot и оригинальные датасеты робо‑фейлов (OopsieBench и DamageSim) в среде OOPSIVERSE.

Самым насыщенным стал воркшоп From Data to Decisions: VLA Pipelines for Real Robot, собравший спикеров из Toyota, Boston Dynamics, NVIDIA и Physical Intelligence. Masha Itkina из Тойоты подробно разбирала правильную статистическую оценку VLA‑стратегий с помощью метрики NSCORE (Beyond Binary Success) и двухстадийный детектор фейлов FAIL‑Detect. Из устных докладов также порадовали MolmoB0T (миллионы симуляционных демонстраций и модели на основе pi0) и Humanoid Everyday (огромный набор бытовых данных от первого лица для гуманоидов).

Великолепный доклад сделал Yuke Zhu из NVIDIA про использование видеогенеративных моделей в качестве нейросимуляторов для обучения VLA. Он показал работы DreamZero и DreamDojo, использующие огромный масштаб эго‑скейл данных (500+ часов телеоперации). Затем Alberto Rodriguez поделился инсайдами из Boston Dynamics о разработке Atlas для сборочных линий Hyundai. Их главные выводы: отличный VR‑интерфейс телеоперации и демонстрации интервенций в стиле DAgger решают больше, чем простое масштабирование данных (успех укладки деталей достиг 90% при бюджете всего в 10 часов данных).

Завершил программу Karl Pertsch из Physical Intelligence, рассказав про Steerable VLA — методы подправления ошибающейся модели на фазе инференса через инструкции, изображения или траектории (как это реализовано в pi0.7).

И на этом мы прощаемся с ICRA 2026 и с Веной. Очень гостеприимный город и уже практически привычная площадка, куда отлично вписалась огромнейшая выставка и куда в целом удобно приезжать как с Азии, так и с Америки. Прогресс робототехники здесь ощущается в полной мере, будем и мы в этот прогресс вкладывать по мере сил🦾

Источник: habr.com

Оцените материал:

Оставить комментарий Отменить ответ

Для отправки комментария вам необходимо авторизоваться.

Репортаж с ICRA 2026 из Вены

Что за мероприятие?

1 июня. Воркшопы и открытие

2 июня. Основная часть, день первый

3 июня. Основная часть, экватор

4 июня. Основная часть, финал и награждения

5 июня. Воркшопы и закрытие

Оставить комментарий Отменить ответ

🤖 Нельсон AI

Гайды, руководства и полезные статьи

Что за мероприятие?

1 июня. Воркшопы и открытие

2 июня. Основная часть, день первый

3 июня. Основная часть, экватор

4 июня. Основная часть, финал и награждения

5 июня. Воркшопы и закрытие

Похожие записи

Похожие записи

Uber и Avride запускают службу роботакси в Далласе

Смерть концепции «все подсказок»: переход Google к структурированному искусственному интеллекту.

Не только трансформеры: за пределами стандартных архитектур LLM

Оставить комментарий Отменить ответ

Присоединяйтесь и подпишитесь на рассылку самых свежих новостей по Email

🤖 Нельсон AI