Закажи экспресс-аудит своего дела онлайн всего за 199 ₽
и получи рекомендации по улучшению - Жми сюда !

Распределенное обучение с подкреплением для масштабируемой высокопроизводительной оптимизации политики

Использование масштабного параллелизма, асинхронных обновлений и многомашинного обучения позволяет достичь и превзойти уровень производительности, сравнимый с человеческим.

Делиться

4010b23568b2a7b13a5377a48887df63

Обучение с подкреплением на реальных задачах — сложная задача.

В контролируемых условиях обучение с подкреплением кажется простым: четко определенные состояния, высокая плотность вознаграждений, стационарная динамика, неограниченное моделирование. Большинство результатов бенчмарков получены при этих предположениях. В реальном мире почти все они нарушаются.

Наблюдения неполные и зашумленные, вознаграждения отложены или неоднозначны, окружающая среда меняется со временем, сбор данных медленный и дорогостоящий, а ошибки несут реальные издержки. Политики должны работать в условиях ограничений безопасности, ограниченного исследования и нестационарных распределений. Данные, полученные вне политики, накапливают смещение. Отладка непрозрачна. Небольшие ошибки моделирования накапливаются, приводя к нестабильному поведению.

Повторюсь, обучение с подкреплением на реальных задачах — это очень сложно.

За пределами контролируемых симуляторов, таких как Atari, которые существуют в академической среде, практически нет рекомендаций по проектированию, обучению или отладке. Если отбросить предположения, которые делают бенчмарки управляемыми, останется проблемная область, решение которой кажется практически невозможным.

Но потом появляются эти примеры, и надежда вновь появляется:

  1. Команда OpenAI Five одержала победу над действующими чемпионами мира по Dota 2 в полноценных матчах 5 на 5. Обучение проводилось с использованием глубокого обучения с подкреплением.
  2. AlphaStar от DeepMind достиг ранга Грандмастера в StarCraft II, превзойдя 99,8% игроков-людей и стабильно побеждая профессиональных соперников. Обучение проводилось с использованием глубокого обучения с подкреплением.
  3. Система Atlas от Boston Dynamics обучает архитектуру на основе Diffusion Transformer с 450 миллионами параметров, используя комбинацию реальных и смоделированных данных. Обучение проводилось с помощью глубокого обучения с подкреплением.

В этой статье я представлю практические, реальные подходы к параллельному обучению агентов обучения с подкреплением, используя многие, если не те же самые, методы, которые лежат в основе современных сверхчеловеческих систем искусственного интеллекта. Это целенаправленный выбор академических методов, дополненный ценным опытом, полученным при создании агентов, работающих в стохастических, нестационарных областях.

Если вы пытаетесь подойти к решению реальной проблемы, просто применив неоптимизированный бенчмарк из библиотеки RL на одной машине, вы, скорее всего, потерпите неудачу.

Необходимо понимать следующее:

  1. Переформулирование проблемы таким образом, чтобы она соответствовала рамкам теории обучения с подкреплением.
  2. Методы оптимизации политики, которые действительно эффективны за пределами академической среды.
  3. Нюансы понятия «масштаб» в контексте обучения с подкреплением.

Начнём.

Предварительные требования

Если вы никогда раньше не сталкивались с обучением с подкреплением, попытка создать сверхчеловеческий ИИ — или даже более-менее приличного агента — это как попытка научить кошку жонглировать горящими факелами: она в основном игнорирует вас, иногда что-то поджигает, и почему-то от вас все равно ожидают, что вы назовете это «прогрессом». Вам следует хорошо разбираться в следующих областях:

  1. Марковские процессы принятия решений (MDP) и частично наблюдаемые марковские процессы принятия решений (POMDP): они обеспечивают математическую основу для того, как современные агенты искусственного интеллекта взаимодействуют с миром.
  2. Оптимизация политики (также известная как зеркальное обучение) — подробное описание того, как нейронная сеть аппроксимирует оптимальную политику с помощью градиентного подъема.
  3. Продолжим изучение методов 2) Actor Critic Methods и Proximal Policy Optimization (PPO), которые являются двумя широко используемыми методами оптимизации политики.

Для полного понимания и осмысления каждого из этих аспектов требуется время. К сожалению, обучение с подкреплением — сложная область, настолько сложная, что простое масштабирование не решит фундаментальных недоразумений или неправильного применения необходимых шагов, как это иногда бывает в традиционном глубоком обучении.

Источник: towardsdatascience.com

✅ Найденные теги: Высокопроизводительная Политика, Масштабируемая Оптимизация, новости, Подкрепление, Распределенное, Распределенное Обучение

Добавить комментарий

Нет других записей в этой рубрике.

Новости других рубрик

Архив рубрики ~Лента новостей~: Amazon Cognito теперь поддерживает репликацию в нескольких регионах. Архив рубрики ~Лента новостей~: Почему дипломированные юристы повреждают ваши документы при делегировании полномочий? Архив рубрики ~Лента новостей~: Apple вносит изменения в свой спорный дизайн Liquid Glass. Архив рубрики ~Лента новостей~: ИИ уже пишет 80% кода Anthropic. Самое тревожное спрятано в цифре, которую подают как успех Архив рубрики ~Лента новостей~: Компания Aviva использует искусственный интеллект для предотвращения мошенничества в сфере страхования на сумму 230 миллионов фунтов стерлингов. Архив рубрики ~Лента новостей~: ФИФА расширяет использование ИИ на чемпионате мира, чтобы уменьшить количество оскорблений со стороны игроков. Архив рубрики ~Лента новостей~: DuckDuckGo устанавливает Spike, поскольку Google пытается заменить поиск искусственным интеллектом Архив рубрики ~Лента новостей~: AI неожиданно вернул человечество к вопросу о смысле