Будущее физического ИИ — это не более умные роботы, а более умные интерфейсы.

Данная рекламная статья подготовлена при поддержке компании Wetour Robotics.
Техник на ветряной турбине, пристегнутый страховочным поясом, обеими руками держащий гаечный ключ, должен отправить команду диагностическому устройству, висящему у нее на поясе. Работник логистики на погрузочной площадке, в перчатках, с глазами, устремленными на поддон, должен перенаправить подключенный подъемник. Человек, использующий вспомогательное средство передвижения на многолюдной улице, хочет подтолкнуть его вперед, не доставая телефон и не говоря вслух. Ни в одном из этих случаев не нужен более умный робот. Они требуют более умного способа донести свою мысль до уже существующих машин.
Отрасль развивалась с одной стороны.
Последние три года в области физического искусственного интеллекта стали периодом значительного прогресса в робототехнике. Такие компании, как Boston Dynamics, Figure и Unitree, довели разработку приводов, систем передвижения и ловкости до уровня, который еще десять лет назад казался невероятным. Компания Gemini Robotics от Google DeepMind переосмыслила возможности моделей «зрение-язык-действие» в неструктурированных условиях. Развитие аппаратного обеспечения и базовых моделей реально и ускоряется.
Но у этого замкнутого круга есть и другая сторона, и слишком долго его считали решенной проблемой. В течение 40 лет взаимодействие между человеком и машиной по умолчанию сводилось к трем способам ввода: экраны, кнопки и голос. Каждый из них предполагал, что пользователь может остановиться, посмотреть вниз и преобразовать намерение в структурированные команды. Это предположение рушится, как только работа переходит в реальную среду. На турбине. На причале. На тротуаре. В любой обстановке, где заняты руки, задействованы глаза или говорить невозможно, традиционный набор интерфейсов незаметно дает сбой.
Слияние пространственных намерений — это одновременная обработка трех потоков информации, ориентированной на человека, а именно: пространственного положения, визуального контекста и жестового намерения: ваше тело является интерфейсом.
Проблема «узкого места» на стороне человека в этом процессе становится столь же важной, как и проблема на стороне машины. И для ее решения требуется другой вопрос. Не как сделать робота более функциональным, а как позволить человеку участвовать в вычислительной системе так же естественно, как это уже делает робот.
Компания Wetour Robotics делает ставку на возвращение человека в вычислительный цикл.
Компания Wetour Robotics делает ставку на то, что следующий архитектурный прорыв в области физического искусственного интеллекта будет заключаться не в повышении возможностей робота, а в превращении человека в первоклассный узел в вычислительной сети, обладающий тем же уровнем участия с низкой задержкой и высокой точностью, которым уже обладают подключенные устройства.
Инженеры Wetour Robotics формулируют проблему следующим образом: браслета, распознающего жест, недостаточно. Камеры, распознающей сцену, тоже недостаточно. Информация, которую человек хранит о том, что он собирается сделать, распределяется по множеству каналов, включая положение его тела в пространстве, то, на что обращают внимание его глаза, и то, к чему готовятся его мышцы, и любой отдельный канал, наблюдаемый изолированно, является неоднозначным. Надежное восстановление намерений означает объединение этих каналов на уровне операционной системы с достаточно низкой задержкой, чтобы цикл ощущался замкнутым, а не опосредованным.
Этот подход имеет название. Компания Wetour Robotics называет его Spatial Intent Fusion: одновременная обработка трех потоков информации, ориентированной на человека, а именно пространственного положения, визуального контекста и жестового намерения, объединенных в единую команду в реальном времени для любого подключенного физического устройства. Это техническая реализация более простого утверждения о позиционировании, которое компания использует за пределами компании: ваше тело — это интерфейс.
Orchestra — это портативный интеллектуальный центр, работающий под управлением операционной системы, которая обрабатывает объединение данных с датчиков, определение намерений, преобразование команд и разрешение вопросов безопасности. В качестве эталонной вычислительной платформы используется NVIDIA Jetson Orin Nano Super, обеспечивающая достаточную вычислительную мощность на устройстве для поддержания всего контура управления на периферии, без зависимости от облака на критическом пути. Wetour Robotics
Архитектура: три слоя, четыре двигателя, один контур.
Orchestra — это не единое устройство, а многоуровневая платформа, изначально разработанная с учетом гибкости в отношении датчиков и независимости от исполнительных механизмов. Архитектура состоит из трех уровней восприятия и четырех механизмов координации.
Сама Orchestra представляет собой локальное вычислительное и оркестровочное ядро: портативный интеллектуальный центр, работающий под управлением операционной системы, которая обрабатывает объединение данных с датчиков, определение намерений, преобразование команд и арбитраж безопасности. В качестве эталонной вычислительной платформы используется NVIDIA Jetson Orin Nano Super, которая обеспечивает достаточную вычислительную мощность на устройстве для поддержания всего контура управления на периферии, без зависимости от облака на критическом пути. Вывод данных на периферии является обязательным условием для этого приложения. Полная задержка от получения биосигнала до команды исполнительному механизму составляет менее 100 миллисекунд — это диапазон, в пределах которого управление с обратной связью ощущается естественно, а не с задержками.
VisionLink обрабатывает визуальное и пространственное восприятие. Камеры передают данные в модели обработки изображений, которые идентифицируют объекты, оценивают расстояния и отслеживают контекст окружающей среды. VisionLink разработан не как пассивный слой распознавания, а как генератор команд в реальном времени: его выходные данные напрямую передаются в Orchestra OS для объединения с данными биосигналов.
Conductor — это конвейер обработки биосигналов. Он принимает необработанные данные поверхностной электромиографии (sEMG) с устройства, надеваемого на запястье, классифицирует временные паттерны на дискретные жесты или непрерывные управляющие сигналы и выдает команды для исполнительных механизмов. Технически интересное свойство sEMG для данного варианта использования заключается в том, что сигнал предшествует видимому движению. Потенциалы действия двигательных единиц появляются на поверхности кожи примерно за 50–80 миллисекунд до того, как палец завершит соответствующий жест. Компания Wetour Robotics называет это свойство предварительным распознаванием намерения движения, и именно это позволяет Orchestra предвидеть намерения пользователя, а не реагировать на них.
Поверх трех уровней восприятия Orchestra OS работает четыре механизма координации. Механизм восприятия обрабатывает и нормализует необработанные потоки данных с датчиков. Механизм намерений выполняет пространственное слияние намерений в разных модальностях, определяя, что пользователь пытается сделать, исходя из его местоположения, того, на что он смотрит, и того, что подает его рука. Механизм оркестровки преобразует намерения в последовательности команд, специфичные для каждого подключенного исполнительного механизма. Механизм безопасности разрешает конфликтующие команды, обеспечивает соблюдение рабочих параметров и ограничивает выполнение в соответствии с условиями безопасности во время выполнения.
Wetour Robotics
Мы честно говорим о компромиссах, на которые идем мы.
Ни одна система, соединяющая человеческое тело и цифровой мир, не является завершенной. Остаются открытыми три инженерные задачи, и компания решает каждую из них, сознательно выбирая компромиссный вариант, а не заявляя о полном решении.
Базовая стабильность sEMG при движении. У неподвижного пользователя непрерывное распознавание жестов с помощью sEMG является надежным. Как только пользователь начинает ходить, карабкаться или иным образом двигаться, артефакты движения и дрейф электродов ухудшают сигнал таким образом, что полностью компенсировать их становится сложно. Вместо того чтобы давать чрезмерные обещания непрерывного управления в динамических условиях, Orchestra по умолчанию использует меньший набор надежных дискретных жестов в сложных условиях эксплуатации и резервирует режимы непрерывного управления для контекстов, где соотношение сигнал/шум их поддерживает.
Миниатюризация вычислительных ресурсов ИИ на периферии сети. Для запуска контура управления Orchestra полностью на периферии требуется реальный вывод данных непосредственно на устройстве, что исторически означало компромисс между вычислительной мощностью, временем автономной работы и форм-фактором. Подход Wetour Robotics заключается в создании компактной платы-носителя в сочетании с теплоотводящей конструкцией и батарейным модулем, рассчитанным на ношение в течение всего дня. В результате получился концентратор, который перемещается вместе с пользователем, а не привязывает его к рабочему столу, и который выполняет полный цикл от восприятия до выполнения действия без переноса в облако.
Гетерогенность протоколов сторонних устройств. Сторона контура управления представляет собой фрагментированную среду. Разные производители предоставляют разные интерфейсы управления, разные стеки связи и разные соглашения по безопасности, и операционная система Physical AI должна интегрироваться со всеми ними. Компания Wetour Robotics использует слой ИИ-агента для адаптивного согласования соединений и преобразования протоколов, благодаря чему Orchestra OS может получать данные от широкого спектра устройств, обрабатывать их с помощью моделей нейронных сетей, которые определяют намерения человека, и выдавать правильную команду по правильному протоколу для устройства на другом конце.
Почему это важно и почему это помогает остальным участникам отрасли.
История вычислительной техники — это история революций в интерфейсах. Командная строка уступила место графическим пользовательским интерфейсам, которые, в свою очередь, уступили место сенсорному управлению, а затем и голосовому. Каждый переход расширял круг участников системы и возможности её использования. Следующий переход — это не новый экран или новый микрофон. Речь идёт о том, чтобы рассматривать само человеческое тело как участника вычислительной сети, способного передавать намерения с той же скоростью и точностью, что и любой другой подключенный узел.
История вычислительной техники — это история революций в интерфейсах. Следующий этап перехода — это не новый экран или новый микрофон, а рассмотрение самого человеческого тела как участника вычислительной сети.
Этот путь не является конкурентом работам, проводимым над человекоподобными роботами, базовыми моделями для воплощенного ИИ и ловкими манипуляциями. Он является недостающим дополнением к этим работам. Самая сложная открытая проблема для человекоподобных систем — это данные: каждое естественное взаимодействие человека с физическим миром является потенциальным сигналом для обучения, и большинство этих взаимодействий в настоящее время невидимы для любой вычислительной системы. По мере того, как все больше людей становятся первоклассными узлами в цикле, эти взаимодействия становятся наблюдаемыми, структурированными и в конечном итоге полезными для обучения следующего поколения воплощенного ИИ, включая человекоподобных роботов, разрабатываемых сегодня.
Иными словами: возвращение человека в вычислительный цикл — это не просто улучшение интерфейсов для отдельных пользователей. Речь идёт о создании достоверных данных о взаимодействии человека и машины в реальных условиях, которые понадобятся более широкой экосистеме физического ИИ для дальнейшего развития. Роботизированная и человеческая стороны этого цикла — это не два конкурирующих варианта будущего. Это две половины одного целого.
Именно это подразумевает компания Wetour Robotics, когда говорит: «Ваше тело — это интерфейс».
Узнайте больше на сайте wetourrobotics.com.

Добавить комментарий
Для отправки комментария вам необходимо авторизоваться.