Абстрактный узор из цветных квадратов: синий, желтый, розовый, зеленый. Градиентный фон.

Использование искусственного интеллекта для оптимизации ВМ: новый алгоритм LAVA для эффективного использования ресурсов в облачных центрах

342df6979ae1d25d2b15a2d3aecb935a

Мы представляем LAVA, новый алгоритм планирования, который непрерывно пересчитывает и адаптируется к фактическому времени жизни виртуальных машин для оптимизации эффективности использования ресурсов в крупных облачных центрах обработки данных.

Быстрые ссылки

Представьте себе головоломку, похожую на «Тетрис», где фигуры быстро падают на стопку. Некоторые идеально подходят друг к другу, другие — нет. Цель — максимально плотно и эффективно упаковать блоки. Эта игра — приблизительная аналогия с задачей, с которой сталкиваются облачные центры обработки данных несколько раз в секунду, пытаясь максимально эффективно распределить вычислительные задачи (называемые виртуальными машинами или ВМ). Но в этом случае «фишки» (или ВМ) появляются и исчезают, некоторые имеют срок жизни всего несколько минут, а другие — несколько дней. Несмотря на изначально неизвестный срок жизни ВМ, мы все равно хотим заполнить как можно больше физических серверов этими ВМ ради эффективности. Если бы мы знали приблизительный срок жизни задачи, мы могли бы распределять ресурсы гораздо эффективнее.

В масштабах крупных центров обработки данных эффективное использование ресурсов особенно важно как по экономическим, так и по экологическим причинам. Неправильное распределение виртуальных машин может привести к «застою ресурсов», когда оставшиеся ресурсы сервера слишком малы или несбалансированы для размещения новых виртуальных машин, что фактически приводит к нерациональному использованию мощностей. Неправильное распределение виртуальных машин также уменьшает количество «пустых хостов», которые необходимы для таких задач, как обновление системы и предоставление больших, ресурсоемких виртуальных машин.

Классическая задача упаковки в контейнер усложняется неполной информацией о поведении виртуальных машин. Искусственный интеллект может помочь в решении этой проблемы, используя обученные модели для прогнозирования времени жизни виртуальных машин. Однако это часто основано на одном-единственном прогнозе при создании виртуальной машины. Проблема такого подхода заключается в том, что один неверный прогноз может надолго вывести из строя весь хост, снижая эффективность.

В статье «LAVA: Распределение виртуальных машин с учетом времени жизни с использованием обученных распределений и адаптация к ошибочным прогнозам» мы представляем три алгоритма — неинвазивную оценку с учетом времени жизни (NILAS), распределение виртуальных машин с учетом времени жизни (LAVA) и перепланирование с учетом времени жизни (LARS) — которые предназначены для решения проблемы «упаковки в контейнер» при эффективном размещении виртуальных машин на физических серверах. Эта система использует процесс, который мы называем «непрерывным перепрогнозированием», что означает, что она не полагается на первоначальное, одноразовое предположение о времени жизни виртуальной машины, сделанное при ее создании. Вместо этого модель постоянно и автоматически обновляет свой прогноз ожидаемого оставшегося времени жизни виртуальной машины по мере ее дальнейшей работы.

Тайная жизнь виртуальных машин: прогнозы и распределения вероятностей.

Одним из ключевых выводов, лежащих в основе этого исследования, является понимание того, что время жизни виртуальных машин часто непредсказуемо и подчиняется распределению с длинным хвостом. Например, хотя подавляющее большинство виртуальных машин (88%) живут менее часа, эти короткоживущие виртуальные машины потребляют лишь ничтожно малую долю (2%) от общего объема ресурсов. Это означает, что размещение небольшого количества долгоживущих виртуальных машин оказывает непропорционально большое влияние на общую эффективность использования ресурсов.

График относительного вклада по количеству и вычисленной доле.

Распределение времени жизни запланированных виртуальных машин ( слева ) в зависимости от потребления ими ресурсов ( справа ). Интересно, что самые короткие задания (0–10 мин, темно-синий цвет), на долю которых приходится 53% от общего числа, занимают незначительную долю ресурсов. В отличие от них, самые длительные задания (>30 дней, оранжевый цвет), которые занимают значительные ресурсы (18%), составляют незначительную долю от общего числа.

Вместо того чтобы пытаться предсказать единое среднее время жизни, что может ввести в заблуждение в случае виртуальных машин с бимодальным или сильно варьирующимся временем жизни, мы разработали модель машинного обучения, которая предсказывает распределение вероятностей для времени жизни виртуальной машины. Этот подход, вдохновленный анализом выживаемости, позволяет модели учитывать присущую поведению виртуальной машины неопределенность.

Что еще более важно, наша система использует это распределение для непрерывного обновления своих прогнозов. Мы задаемся вопросом: «Если виртуальная машина работает уже пять дней, каково ее ожидаемое оставшееся время работы?» По мере продолжения работы виртуальной машины система получает больше информации, и ее прогнозирование времени работы становится более точным. Наши алгоритмы специально разработаны для использования этих перепрогнозирований, активно реагируя на ошибочные прогнозы и повышая точность с течением времени.

График, показывающий распределение времени жизни виртуальных машин.

Распределение продолжительности жизни виртуальных машин. При планировании работы виртуальной машины ожидаемая (средняя) продолжительность её работы составляет 0,2 дня. После 1 дня работы ожидаемая оставшаяся продолжительность составляет 4 дня. После 7 дней ожидаемая оставшаяся продолжительность составляет 10 дней.

Новый класс алгоритмов планирования

С помощью этой новой, более надежной модели прогнозирования мы разработали три новых алгоритма для улучшения распределения виртуальных машин.

1. Неинвазивное планирование с учетом продолжительности жизни пациента (NILAS)

NILAS — это неинвазивный алгоритм, который включает прогнозы времени жизни в существующую функцию оценки. Он ранжирует потенциальные хосты для новой виртуальной машины, учитывая повторно прогнозируемые времена завершения работы всех существующих виртуальных машин на этом хосте. Приоритизируя хосты, где ожидается, что все виртуальные машины завершат работу примерно в одно и то же время, NILAS стремится создать больше пустых машин. Использование повторных прогнозов менее чувствительно к точности прогнозирования и позволяет NILAS корректировать ошибки. Алгоритм NILAS развернут на нашем крупномасштабном кластерном менеджере Borg, где он значительно улучшает распределение виртуальных машин.

2. Распределение виртуальных машин с учетом времени жизни (LAVA)

LAVA представляет собой более принципиальное отличие от существующих механизмов планирования. В то время как NILAS стремится размещать виртуальные машины с похожим временем жизни, LAVA делает обратное: она размещает виртуальные машины с более коротким временем жизни на хостах, где уже находятся одна или несколько виртуальных машин с длительным временем жизни. Цель состоит в том, чтобы заполнить дефицит ресурсов виртуальными машинами с коротким временем жизни, которое как минимум на порядок короче предполагаемого срока жизни хоста, чтобы они быстро завершали работу, не увеличивая общий срок жизни хоста. LAVA также активно адаптируется к ошибкам прогнозирования, увеличивая предполагаемый срок жизни хоста, если виртуальная машина пережила свой ожидаемый срок. Моделирование показывает, что эта стратегия минимизирует фрагментацию и гарантирует, что хосты в конечном итоге будут освобождены.

3. Перепланирование с учетом продолжительности жизни (LARS)

LARS использует прогнозы срока службы виртуальных машин для минимизации сбоев в работе виртуальных машин во время дефрагментации и технического обслуживания. Когда хост необходимо дефрагментировать, LARS сортирует виртуальные машины на этом хосте по прогнозируемому оставшемуся сроку службы и мигрирует в первую очередь виртуальные машины с самым длительным сроком службы. Виртуальные машины с более коротким сроком службы завершают работу естественным образом до миграции. Моделирование с использованием LARS показывает, что система потенциально может сократить общее количество необходимых миграций примерно на 4,5%.

Решение проблемы масштабного развертывания

Разработка мощных моделей и алгоритмов — это лишь часть решения. Для обеспечения их надежной работы в больших масштабах нам пришлось переосмыслить наш подход к развертыванию моделей.

Распространенной практикой является размещение моделей машинного обучения на выделенных серверах для вывода результатов. Однако это создало бы замкнутый круг зависимостей, поскольку эти серверы сами работали бы в нашей кластерной системе планирования. Сбой на уровне размещения моделей мог бы вызвать каскадный сбой в самом планировщике, что неприемлемо для критически важной системы.

Наше решение заключалось в компиляции модели непосредственно в исполняемый файл планировщика Borg. Такой подход устранил циклическую зависимость и гарантировал, что модель тестировалась и внедрялась с тем же строгим процессом, что и любые другие изменения кода планировщика. Это также дало дополнительное преимущество: средняя задержка модели составляет всего 9 микросекунд (мкс), что в 780 раз быстрее, чем аналогичный подход, использующий отдельные серверы моделей. Такая низкая задержка имеет решающее значение для частого выполнения перепрогнозирования и для использования модели в задачах, критичных к производительности, таких как техническое обслуживание и дефрагментация.

Мы также обнаружили, что для наших самых больших зон количество необходимых прогнозов может стать узким местом. Мы решили эту проблему, внедрив кэш оценок срока службы хоста, который обновляет прогнозы только при добавлении или удалении виртуальной машины с хоста, или когда истекает ожидаемый срок службы хоста. Этот механизм кэширования обеспечивает высокую производительность и позволяет нам развернуть нашу систему во всей сети.

Результаты

Наш алгоритм NILAS работает в производственных центрах обработки данных Google с начала 2024 года. Результаты очевидны и значимы.

  • Увеличение количества пустых хостов: Наши пилотные проекты и внедрение в масштабах всего парка серверов показали увеличение количества пустых хостов на 2,3–9,2 процентных пункта (п.п.). Этот показатель напрямую коррелирует с эффективностью, поскольку улучшение на 1 п.п. обычно эквивалентно экономии 1% мощности кластера.
  • Снижение неэффективного использования ресурсов: В некоторых пилотных экспериментах NILAS снизил неэффективное использование ресурсов ЦП примерно на 3% и неэффективное использование ресурсов памяти на 2%. Это означает, что больше ресурсов хоста становится доступным для использования новыми виртуальными машинами.

Результаты моделирования с использованием LAVA показывают, что он обеспечит дополнительное улучшение примерно на 0,4 процентных пункта по сравнению с NILAS. Аналогично, моделирование с использованием LARS указывает на потенциальную возможность сокращения количества миграций виртуальных машин в режиме реального времени, необходимых для обслуживания, на 4,5%.

Заключение

Мы считаем, что эта работа является основополагающим шагом на пути к будущему, в котором управление центрами обработки данных будет все больше оптимизироваться с помощью систем машинного обучения. Разработанные нами методы, в частности использование повторных прогнозов и совместное проектирование моделей и систем, применимы и к другим задачам. Мы продемонстрировали, что можно интегрировать передовые методы машинного обучения в самые нижние уровни инфраструктурного стека системы без ущерба для надежности или задержки, при этом обеспечивая значительное повышение эффективности.

Благодарности

LAVA — это масштабный совместный проект, в котором участвовали многочисленные команды Google, включая Google Cloud, Google DeepMind, Google Research и SystemsResearch@Google. Среди ключевых участников — Цзяньхэн Лин, Пратик Вора, Явэнь Ван, Юньчуань Конг, Аншул Капур, Чунлей Ван, Клиффорд Стейн, Дивакар Гупта, Джейсон Бехмер, Логан А. Буш, Пракаш Раманан, Раджеш Кумар, Томас Честна, Яцзин Лю, Ин Лю, Е Чжао, Кэтрин С. Маккинли, Миён Парк и Мартин Маас.

    Источник: research.google

    ✅ Найденные теги: LAVA, алгоритм, искусственный интеллект, Использование, новости, Облачные Центры, Оптимизация

    ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

    Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

    галерея

    Компания Waters получила разрешение FDA на использование домашнего набора для скрининга рака шейки матки — Medical Device Network
    Женщина в академической мантии выступает за кафедрой на церемонии вручения дипломов.
    Человек в академической мантии выступает на церемонии вручения дипломов.
    Стетоскоп на фоне долларовых купюр и цифровых технологий, символизирующих медицину и финансы.
    Угандийские шимпанзе разделились на две враждующие группировки, а затем убили своих соперников.
    Астронавты внутри космического корабля, флаги США и Канады, экипировка, миссия America 250.
    ideipro logotyp
    Белый коралл с цветными деталями в центре, сложные узоры на фоне.
    ideipro logotyp
    Image Not Found
    Компания Waters получила разрешение FDA на использование домашнего набора для скрининга рака шейки матки — Medical Device Network

    Компания Waters получила разрешение FDA на использование домашнего набора для скрининга рака шейки матки — Medical Device Network

    Исследования показывают, что большинство случаев рака шейки матки вызваны ВПЧ. Фото: Antonio Marca / Shutterstock.com Управление по санитарному надзору за качеством пищевых продуктов и медикаментов США (FDA) одобрило набор для самостоятельного сбора образцов вируса папилломы человека (ВПЧ)…

    Апр 11, 2026
    Женщина в академической мантии выступает за кафедрой на церемонии вручения дипломов.

    «Это будет грандиозно»: «Дьявольская» молекула готова стать следующим золотым дном в биотехнологиях.

    В начале 1960-х годов норвежский врач Каре Берг, доктор медицинских наук, пытаясь определить новые группы крови, случайно обнаружил липопротеин с загадочными свойствами. Похожий на холестерин, но не совсем идентичный ему, а также похожий на белок, растворяющий тромбы,…

    Апр 11, 2026
    Человек в академической мантии выступает на церемонии вручения дипломов.

    «Это будет грандиозно»: «Дьявольская» молекула готова стать следующим золотым дном в биотехнологиях.

    В начале 1960-х годов норвежский врач Каре Берг, доктор медицинских наук, пытаясь определить новые группы крови, случайно обнаружил липопротеин с загадочными свойствами. Похожий на холестерин, но не совсем идентичный ему, а также похожий на белок, растворяющий тромбы,…

    Апр 11, 2026
    Стетоскоп на фоне долларовых купюр и цифровых технологий, символизирующих медицину и финансы.

    STAT+: Сегодня ожидается важное объявление по программе Medicare Advantage.

    Вы читаете информационный бюллетень STAT Health Care Inc. Управление оповещениями для этой статьи Отправить эту статью по электронной почте Поделитесь этой статьей Фотоиллюстрация: Алекс Хоган/STAT Это онлайн-версия еженедельной электронной рассылки STAT «Health Care Inc.». Подписаться можно здесь.…

    Апр 11, 2026

    Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых