Детский рисунок: робот и слова на английском с объектами, включая кролика и гитару.

Машины лучше учатся, если мы обучаем их основам.

В последнее время наблюдается тенденция к улучшению алгоритмов обучения с подкреплением путем их предварительного обучения, имитирующего действия человека. Комментарий Сохранить статью Прочитать позже

Иллюстрация абстрактного, угловатого робота, окруженного предметами домашнего обихода, такими как нож и гитара, на каждом из которых есть этикетки.

Введение

Представьте, что вам звонит сосед с просьбой: не могли бы вы покормить его кролика ломтиками моркови? Казалось бы, это несложно. Вы можете представить себе его кухню, даже если никогда там не были — морковь в холодильнике, ящик с разными ножами. Это абстрактное знание: вы не знаете точно, как выглядят морковь и ножи вашего соседа, но вы же не станете резать огурец ложкой.

Программы искусственного интеллекта не могут конкурировать. То, что вам кажется простой задачей, для современных алгоритмов представляет собой огромную проблему.

Обученный искусственным интеллектом робот может найти определенный нож и морковь, спрятанные на знакомой кухне, но на другой кухне ему не хватит абстрактных навыков, чтобы преуспеть. «Они не обобщают свои знания на новые условия», — сказал Виктор Чжун, аспирант кафедры компьютерных наук Вашингтонского университета. Машина терпит неудачу, потому что ей просто слишком многому нужно научиться и слишком обширное пространство для исследования.

Проблема в том, что у этих роботов — и у агентов ИИ в целом — нет базовых концепций, на которых можно было бы строить. Они не знают, что такое нож или морковь, тем более как открыть ящик, выбрать что-нибудь и нарезать ломтиками. Это ограничение частично обусловлено тем, что многие продвинутые системы ИИ обучаются методом, называемым обучением с подкреплением, который по сути является самообучением методом проб и ошибок. Агенты ИИ, обученные с помощью обучения с подкреплением, могут очень хорошо выполнять работу, для которой они были обучены, в той среде, в которой они были обучены. Но стоит изменить работу или среду, и эти системы часто терпят неудачу.

Чтобы обойти это ограничение, специалисты по информатике начали обучать машины важным концепциям, прежде чем давать им возможность самостоятельно работать. Это как читать инструкцию перед использованием нового программного обеспечения: можно попытаться изучить его без неё, но с ней обучение произойдёт гораздо быстрее. «Люди учатся, сочетая практику и чтение», — говорит Картик Нарасимхан, специалист по информатике из Принстонского университета. «Мы хотим, чтобы машины делали то же самое».

Новые работы Чжуна и других показывают, что такая предварительная подготовка обучающей модели может значительно ускорить обучение в смоделированных средах, как в онлайн-среде, так и в реальном мире с роботами. И это не просто ускоряет обучение алгоритмов — это направляет их к навыкам, которые они иначе никогда бы не освоили. Исследователи хотят, чтобы эти агенты стали универсальными специалистами, способными освоить что угодно, от шахмат до покупок и уборки. И по мере того, как демонстрации становятся все более практичными, ученые считают, что этот подход может даже изменить то, как люди могут взаимодействовать с роботами.

«Это настоящий прорыв», — сказал Брайан Ихтер, научный сотрудник Google в области робототехники. «Просто невероятно, как далеко мы продвинулись за полтора года».

Скудные награды

На первый взгляд, машинное обучение уже продемонстрировало впечатляющие успехи. Большинство моделей, как правило, используют обучение с подкреплением, где алгоритмы учатся, получая вознаграждение. Вначале они совершенно ничего не знают, но метод проб и ошибок в конечном итоге превращается в метод проб и ошибок. Агенты, использующие обучение с подкреплением, легко осваивают простые игры.

Рассмотрим видеоигру «Змейка», где игроки управляют змейкой, которая растет в длину, поедая цифровые яблоки. Ваша цель — съесть как можно больше яблок, оставаться в пределах заданных границ и не сталкиваться со своим все более громоздким телом. Такие четкие правильные и неправильные результаты дают хорошо вознаграждаемому машинному агенту положительную обратную связь, поэтому достаточное количество попыток может превратить его из «новичка» в победителя.

Но предположим, что правила изменились. Возможно, тому же агенту нужно играть на большей сетке и в трех измерениях. В то время как человек мог бы быстро адаптироваться, машина не может из-за двух критических недостатков. Во-первых, большее пространство означает, что змее требуется больше времени, чтобы наткнуться на яблоки, а обучение замедляется экспоненциально, когда вознаграждения становятся редкими. Во-вторых, новое измерение предоставляет совершенно новый опыт, и обучение с подкреплением с трудом обобщается на новые задачи.

Виктор Чжун в синей рубашке перед лестницей

Виктор Чжун помог машинам научиться обобщать свои знания, предварительно предоставив им базовую информацию.

Чжун говорит, что нам не нужно мириться с этими препятствиями. «Почему, когда мы хотим играть в шахматы» — еще одну игру, которую освоило обучение с подкреплением, — «мы обучаем агента с подкреплением с нуля?» Такие подходы неэффективны. Агент бесцельно бродит, пока не наткнется на благоприятную ситуацию, например, на мат, и, по словам Чжуна, требуется тщательная разработка человеком, чтобы агент понял, что значит благоприятная ситуация. «Зачем нам это делать, когда у нас уже есть столько книг о том, как играть в шахматы?»

Отчасти это связано с тем, что машинам изначально было сложно понимать человеческий язык и расшифровывать изображения. Например, чтобы робот мог выполнять задачи, основанные на зрении, такие как поиск и нарезка моркови, он должен знать, что такое морковь — изображение объекта должно быть «обосновано» на более фундаментальном понимании того, что это за объект. До недавнего времени не существовало хорошего способа сделать это, но бурный рост скорости и масштабов обработки языка и изображений сделал возможными новые успехи.

Новые модели обработки естественного языка позволяют машинам, по сути, изучать значение слов и предложений — соотносить их с реальностью — вместо того, чтобы просто хранить простое (и ограниченное) значение, как в цифровом словаре.

Компьютерное зрение пережило аналогичный цифровой взрыв. Примерно в 2009 году появилась база данных ImageNet с аннотированными изображениями для исследований в области компьютерного зрения. Сегодня она содержит более 14 миллионов изображений объектов и мест. А такие программы, как DALL·E от OpenAI, генерируют по команде новые изображения, которые выглядят так, будто созданы человеком, несмотря на отсутствие точного аналога.

Это показывает, что машины только сейчас получили доступ к достаточному количеству онлайн-данных, чтобы действительно узнать мир, считает Анима Анандкумар, специалист по информатике из Калифорнийского технологического института и компании Nvidia. И это признак того, что они могут учиться на основе концепций, как и мы, и использовать их для генерации. «Сейчас мы находимся в таком замечательном моменте, — сказала она. — Потому что, как только мы получим возможность генерации, мы сможем сделать гораздо больше».

Обход системы

Исследователи, такие как Чжун, решили, что машинам больше не нужно начинать свои исследования совершенно неподготовленными. Вооружившись сложными языковыми моделями, исследователи могли добавить этап предварительного обучения, на котором программа обучалась на основе информации из интернета, прежде чем приступать к методу проб и ошибок.

Чтобы проверить эту идею, он и его коллеги сравнили предварительное обучение с традиционным обучением с подкреплением в пяти различных игровых условиях, где машинные агенты интерпретировали языковые команды для решения задач. Каждая смоделированная среда представляла собой уникальную задачу для машинного агента. В одной из них агенту нужно было манипулировать предметами на трехмерной кухне; в другой требовалось читать текст, чтобы выучить точную последовательность действий для борьбы с монстрами. Но самым сложным вариантом оказалась реальная игра, 35-летняя NetHack, где цель состоит в том, чтобы пройти через сложное подземелье и найти амулет.

В простых сценариях автоматическое предварительное обучение сводилось к простому закреплению важных понятий: это — морковка, это — монстр. В NetHack агент обучался, наблюдая за игрой людей, используя записи игр, загруженные в интернет игроками. Эти записи даже не обязательно должны были быть очень качественными — агенту нужно было лишь развить интуицию в отношении поведения людей. Агент не должен был стать экспертом, а просто обычным игроком. Он развивал интуицию, наблюдая за тем, что бы сделал человек в данной ситуации. Агент решал, какие ходы будут успешными, формулируя свою собственную систему «кнута и пряника».

«Благодаря предварительному обучению мы формируем хорошие представления о том, как связывать языковые описания с событиями, происходящими в мире», — сказал Чжун. Агент будет лучше играть с самого начала и быстрее обучаться в ходе последующего обучения с подкреплением.

В результате предварительно обученный агент превзошел традиционно обученного. «Мы получаем прирост производительности во всех пяти этих средах», — сказал Чжун. В более простых условиях наблюдалось лишь небольшое преимущество, но в сложных подземельях NetHack агент обучался во много раз быстрее и достиг уровня мастерства, недостижимого при классическом подходе. «Вы можете получить десятикратное увеличение производительности, потому что, если вы этого не делаете, вы просто не усвоите хорошую стратегию», — сказал он.

«Эти универсальные агенты — это огромный шаг вперед по сравнению со стандартным обучением с подкреплением», — сказал Анандкумар.

Ее команда также предварительно обучает агентов, чтобы они быстрее усваивали материал, что привело к значительному прогрессу в разработке самой продаваемой в мире видеоигры Minecraft. Это игра-песочница, предоставляющая игрокам практически бесконечное пространство для взаимодействия и создания новых миров. Программировать функцию вознаграждения для тысяч заданий по отдельности бессмысленно, поэтому модель команды («MineDojo») изучала игру, просматривая видеоролики с прохождениями. Нет необходимости кодифицировать хорошее поведение.

«Мы внедряем автоматизированные функции вознаграждения, — сказал Анандкумар. — Это первый бенчмарк с тысячами задач и возможностью обучения с подкреплением на основе открытых задач, заданных с помощью текстовых подсказок».

Beyond Games

Игры стали отличным способом показать, что модели предварительного обучения могут работать, но это всё ещё упрощённые миры. Обучение роботов работе в реальном мире, где возможности практически безграничны, гораздо сложнее. «Мы задали себе вопрос: есть ли что-то среднее?» — сказал Нарасимхан. Поэтому он решил заняться онлайн-шопингом.

Его команда создала WebShop. «Это, по сути, как дворецкий для покупок», — сказал Нарасимхан. Пользователи могут сказать что-то вроде: «Дайте мне белые кроссовки Nike стоимостью меньше 100 долларов, и я хочу, чтобы в отзывах было указано, что они очень удобны для малышей», — и программа найдет и купит эти кроссовки.

Как и в случае с играми Чжуна и Анандкумара, WebShop развил интуицию, тренируясь с изображениями и текстом, на этот раз со страниц Amazon. «Со временем он учится понимать язык и сопоставлять его с действиями, которые ему необходимо совершить на веб-сайте».

На первый взгляд, «помощник покупателя» может показаться не таким уж футуристическим устройством. Но если современный чат-бот может помочь вам найти нужные кроссовки, то для таких взаимодействий, как оформление заказа, требуется совершенно другой набор навыков. И хотя ваши прикроватные колонки Alexa или Google Home могут оформлять заказы, они полагаются на собственное программное обеспечение, выполняющее заранее определенные задачи. WebShop же перемещается по сети так же, как и люди: читая, печатая и кликая.

«Это шаг к созданию общей разведывательной системы», — сказал Нарасимхан.

Картик Нарасимхан в синей рубашке и сером пиджаке сидит в красном кресле.

«Люди учатся, сочетая практическую деятельность и чтение. Мы хотим, чтобы машины делали то же самое», — сказал Картик Нарасимхан.

Конечно, заставить роботов взаимодействовать с реальным миром сопряжено со своими трудностями. Возьмем, к примеру, бутылку. Вы можете узнать ее по внешнему виду, знаете, что она предназначена для хранения жидкостей, и понимаете, как ею пользоваться. Смогут ли настоящие машины когда-нибудь превратить слова и изображения в сложный интеллект, основанный на движении?

Нарасимхан в сотрудничестве с Анирудхой Маджумдаром, специалистом по робототехнике из Принстона, попытался это выяснить. Они обучили роботизированную руку манипулировать инструментами, которых она никогда раньше не видела, предварительно обучив её с помощью описательного языка, взятого из успешных языковых моделей. Согласно результатам, опубликованным на сервере препринтов arxiv.org в июне прошлого года, программа обучалась быстрее и показывала лучшие результаты почти с каждым инструментом и действием по сравнению с программами, обучающимися традиционным методом исследования.

Инженеры в робототехнических лабораториях Google создали библиотеку еще более сложных команд, также основанную на предварительном обучении с учетом контекста. «Мир возможностей, которые необходимо учитывать, огромен, — говорит Кароль Хаусман, научный сотрудник команды робототехники Google. — Поэтому мы просим языковую модель упростить его для нас».

Команда работала с мобильным роботом-помощником, оснащенным семисуставной рукой, которого они обучили, используя языковые навыки. Для любой команды — например, «помоги мне вытереть пролитый напиток» — программа использует языковую модель, чтобы предложить действия из библиотеки, содержащей 700 обученных движений, таких как «взять» бумажное полотенце, «поднять» банку или «выбросить» банку. Хаусман говорит, что команда признает свои ограничения, используя такие фразы, как «Я на самом деле не могу вытереть. Но я могу принести вам губку». Недавно команда сообщила о результатах этого проекта, получившего название SayCan.

Еще одно преимущество наделения роботов языковыми моделями заключается в том, что перевод синонимов и слов на другие языки становится тривиальной задачей. Один человек может сказать «повернуть», а другой — «повернуть», и робот поймет оба варианта. «Самое невероятное, что мы пробовали, это то, что он еще и понимает эмодзи», — сказал Фэй Ся, научный сотрудник Google.

Боты учатся

SayCan, пожалуй, является наиболее продвинутой на сегодняшний день демонстрацией обучения на основе языка в робототехнике. При этом языковые и графические модели постоянно совершенствуются, создавая более эффективные и сложные методы предварительного обучения.

Однако Ся старается сдерживать свой энтузиазм. «Кто-то полушутя сказал, что мы достигли момента „роботизированного GPT“», — сказал он, имея в виду новаторские языковые модели, которые понимают широкий спектр человеческих команд. «Мы еще не достигли этого, и нам предстоит еще многое исследовать».

Например, эти модели могут давать неверные ответы или совершать ошибочные действия, что исследователи пытаются понять. Роботы также еще не освоили «воплощение»: в то время как у людей есть физическая интуиция, сформированная в детстве играми с игрушками, роботам все еще необходимы взаимодействия в реальном мире для развития такого рода интуиции. «В некоторых ситуациях существует множество немаркированных демонстраций», — сказал Чжун, — «вспомните базы данных взаимодействий в видеоиграх, таких как Minecraft и NetHack». Ни одна база данных не может быстро научить роботов разумному движению.

Тем не менее, прогресс идет быстро. И все больше исследователей считают, что в конечном итоге результатом станет более интеллектуальная робототехника. Нарасимхан прослеживает эту эволюцию человека и робота от перфокарт до следующей технологии. «У нас были клавиатуры и мыши, а затем сенсорные экраны», — сказал он. Следующий шаг — это использование естественного языка. Вы будете говорить со своим компьютером, чтобы получать ответы и выполнять поручения. «Вся эта мечта о том, что помощники действительно смогут что-то сделать, еще не сбылась», — сказал он. «Но я думаю, что это произойдет очень скоро».

Источник: www.quantamagazine.org

✅ Найденные теги: Машины, новости, Обучение, Основы

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Цветные блоки и линии, символизирующие технологическую сеть или блокчейн.
ideipro logotyp
Текст "MIT 2025 in the Media" на фоне цифровой сетки и световых эффектов.
Диаграмма Венна: пересечение U-REGLE, M-REGLE и GWAS Catalog.
Извлечение документов DPT-2, точность 99.16%, DocVQA, текст под подписью.
Новая открытая система «автоисследований» Андрея Карпати позволяет запускать сотни экспериментов с искусственным интеллектом за ночь, что имеет революционные последствия.
Новорожденный в инкубаторе с фототерапией под синим светом.
Паркетный зал с деловой встречей, люди сидят и слушают спикеров за столом.
Абстрактное изображение в розово-синих тонах, напоминающее фрактал или галактику.
Image Not Found
Абстрактное изображение в розово-синих тонах, напоминающее фрактал или галактику.

Вирус опоясывающего лишая может ускорять старение организма.

Имеющиеся данные свидетельствуют о том, что повторная активация вируса ветряной оспы и опоясывающего лишая может ускорить старение и повысить риск развития деменции. Теперь ученые хотят выяснить, могут ли вакцины и противовирусные препараты помочь защитить мозг. Фотография: Джеймс…

Мар 13, 2026
Космическая площадка с пусковой установкой для ракет на фоне голубого неба.

Александр Фадеев ушел в отставку: строитель космодрома «Восточный» покинул пост

Заместитель генерального директора АО «ЦЭНКИ» Александр Фадеев ушел в отставку  Создатель космодромов в России и за рубежом, заместитель генерального директора АО «ЦЭНКИ» по техническому и авторскому надзору Александр Фадеев покинул свой пост, написал заявление по собственному желанию. …

Мар 13, 2026
Современная лаборатория с учеными в белых халатах и высокотехнологичным оборудованием.

Искусственный интеллект разрабатывает и проводит эксперименты на биологических образцах с рекордной скоростью

Исследователи из OpenAI и Ginkgo Bioworks показали, что модель искусственного интеллекта, работающая в автономной лаборатории, может разрабатывать и проводить реальные биологические эксперименты с беспрецедентной скоростью Автор: Дени Эллис Бешар под редакцией Эрика Салливана Присоединяйтесь к нашему сообществу…

Мар 13, 2026
Цветные полосы на экране, символизирующие обработку данных или анализ ДНК.

Обмен данными о генетическом риске может непреднамеренно раскрыть секреты.

Статистические данные, количественно определяющие предрасположенность человека к таким заболеваниям, как диабет и рак, могут быть подвергнуты обратному инжинирингу для выявления лежащих в их основе генетических данных, что вызывает опасения по поводу конфиденциальности. Анализ генетических данных позволяет оценить…

Мар 13, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых