Этот новый подход адаптируется и определяет, каким роботам следует отдавать приоритет в каждый конкретный момент времени, избегая заторов и повышая пропускную способность.
«Это очень перспективный подход, потому что в таких гигантских складах даже увеличение пропускной способности на 2 или 3 процента может иметь огромное значение», — говорит Хань Чжэн. Изображение: MIT News; iStock
Внутри гигантского автономного склада сотни роботов снуют по проходам, собирая и распределяя товары для выполнения непрерывного потока заказов клиентов. В этой оживленной обстановке даже небольшие пробки или незначительные столкновения могут перерасти в масштабные задержки.
Чтобы избежать подобной лавины неэффективности, исследователи из Массачусетского технологического института и технологической компании Symbotic разработали новый метод, который автоматически обеспечивает бесперебойное движение парка роботов. Их метод, основываясь на характере заторов, определяет, какие роботы должны двигаться первыми в каждый конкретный момент, и адаптируется, отдавая приоритет роботам, которые вот-вот застрянут. Таким образом, система может заранее перенаправлять роботов, чтобы избежать заторов.
Гибридная система использует глубокое обучение с подкреплением — мощный метод искусственного интеллекта для решения сложных задач — для определения приоритетности роботов. Затем быстрый и надежный алгоритм планирования подает инструкции роботам, позволяя им быстро реагировать в постоянно меняющихся условиях.
В симуляциях, имитирующих реальные планировки складов электронной коммерции, этот новый подход позволил добиться увеличения пропускной способности примерно на 25 процентов по сравнению с другими методами. Важно отметить, что система может быстро адаптироваться к новым условиям с различным количеством роботов или разнообразной планировкой складов.
«В производстве и логистике существует множество проблем принятия решений, где компании полагаются на алгоритмы, разработанные экспертами. Но мы показали, что, используя возможности глубокого обучения с подкреплением, мы можем достичь сверхчеловеческих результатов. Это очень перспективный подход, поскольку в этих гигантских складах даже увеличение пропускной способности на 2 или 3 процента может иметь огромное значение», — говорит Хань Чжэн, аспирант Лаборатории информационных и систем принятия решений (LIDS) в Массачусетском технологическом институте и ведущий автор статьи об этом новом подходе.
В работе над статьей к Чжэну присоединились Инин Ма, научный сотрудник LIDS; Брэндон Араки и Цзинкай Чен из Symbotic; а также старший автор Кэти Ву, доцент кафедры гражданского и экологического строительства (CEE) и Института данных, систем и общества (IDSS) Массачусетского технологического института (MIT), занимающаяся развитием карьеры выпускников 1954 года, и член LIDS. Исследование опубликовано сегодня в журнале Journal of Artificial Intelligence Research.
Перенаправление роботов
Координация работы сотен роботов на складе электронной коммерции одновременно — задача непростая.
Проблема особенно осложняется тем, что склад представляет собой динамичную среду, и роботы постоянно получают новые задачи после достижения своих целей. Их необходимо быстро перенаправлять при выходе и входе на складскую площадку.
Компании часто используют алгоритмы, разработанные экспертами, чтобы определить, куда и когда роботы должны перемещаться, чтобы максимизировать количество посылок, которые они могут обработать.
Но если возникнет затор или произойдет авария, у компании может не остаться иного выбора, кроме как остановить работу всего склада на несколько часов, чтобы вручную устранить проблему.
«В таких условиях у нас нет точного прогноза на будущее. Мы знаем только то, что может произойти в будущем, с точки зрения поступающих посылок или распределения будущих заказов. Система планирования должна адаптироваться к этим изменениям по мере продолжения работы склада», — говорит Чжэн.
Исследователи из Массачусетского технологического института добились такой адаптивности, используя машинное обучение. Они начали с разработки модели нейронной сети, которая, анализируя данные о состоянии склада, определяет приоритеты для роботов. Модель обучалась с помощью глубокого обучения с подкреплением — метода проб и ошибок, при котором модель учится управлять роботами в симуляциях, имитирующих реальные склады. Модель получает вознаграждение за решения, повышающие общую производительность и избегающие конфликтов.
Со временем нейронная сеть учится эффективно координировать действия множества роботов.
«Взаимодействуя с симуляциями, созданными на основе реальных планировок складов, наша система получает обратную связь, которую мы используем для повышения интеллектуальности принимаемых ею решений. Обученная нейронная сеть затем может адаптироваться к складам с различной планировкой», — объясняет Чжэн.
Она разработана для учета долгосрочных ограничений и препятствий на пути каждого робота, а также для учета динамического взаимодействия между роботами по мере их перемещения по складу.
Прогнозируя текущее и будущее взаимодействие роботов, модель планирует предотвратить заторы еще до их возникновения.
После того как нейронная сеть определит, каким роботам следует отдать приоритет, система использует проверенный алгоритм планирования, чтобы указать каждому роботу, как переместиться из одной точки в другую. Этот эффективный алгоритм помогает роботам быстро реагировать на меняющиеся условия складского помещения.
Такое сочетание методов имеет ключевое значение.
«Этот гибридный подход основан на работе моей группы по поиску наилучших результатов, сочетающих машинное обучение и классические методы оптимизации. Чистые методы машинного обучения по-прежнему испытывают трудности с решением сложных задач оптимизации, и в то же время разработка эффективных методов требует от экспертов чрезвычайно много времени и усилий. Но совместное использование разработанных экспертами методов правильным образом может значительно упростить задачу машинного обучения», — говорит Ву.
Преодоление сложности
После обучения нейронной сети исследователи протестировали систему в смоделированных складских помещениях, отличающихся от тех, которые она видела во время обучения. Поскольку промышленные симуляции оказались слишком неэффективными для решения этой сложной задачи, исследователи разработали собственные среды, имитирующие процессы, происходящие на реальных складах.
В среднем, их гибридный подход, основанный на машинном обучении, обеспечил на 25 процентов большую пропускную способность, чем традиционные алгоритмы, а также метод случайного поиска, с точки зрения количества доставленных роботом посылок. Их подход также позволил генерировать выполнимые планы траектории движения робота, которые преодолевали заторы, вызванные традиционными методами.
«Особенно когда плотность роботов на складе возрастает, сложность увеличивается экспоненциально, и традиционные методы быстро начинают давать сбои. В таких условиях наш метод гораздо эффективнее», — говорит Чжэн.
Хотя до реального внедрения их системы еще далеко, эти демонстрации демонстрируют осуществимость и преимущества использования подхода, основанного на машинном обучении, в автоматизации складских операций.
В будущем исследователи планируют включить распределение задач в формулировку проблемы, поскольку определение того, какой робот выполнит каждую задачу, влияет на загруженность. Они также планируют масштабировать свою систему до более крупных складов с тысячами роботов.
Данное исследование было профинансировано компанией Symbotic.
Источник: news.mit.edu






















