Крис Мэддисон был всего лишь стажером, когда начал работать над искусственным интеллектом для игры в го, который в конечном итоге стал AlphaGo. Десять лет спустя он рассказывает о том матче против Ли Седоля и о том, что произошло дальше.
Победу AlphaGo транслировали по телевидению. Им Хун-джун/Ёнхап/AP Photo via Getty Images
В марте 2016 года система искусственного интеллекта AlphaGo от Google DeepMind потрясла мир. В потрясающей серии из пяти партий в го, древнюю китайскую настольную игру, ИИ победил лучшего игрока в мире, Ли Седоля – этот момент транслировался по телевидению перед миллионами зрителей и многими был назван историческим событием в развитии искусственного интеллекта.
Крис Мэддисон, ныне профессор искусственного интеллекта в Университете Торонто, тогда был магистрантом и помог запустить проект. Все началось с того, что Илья Суцкевер, который позже основал OpenAI, связался с ним…
Алекс Уилкинс: Как впервые возникла идея создания AlphaGo?
Крис Мэддисон: Илья [Суцкевер] привёл мне следующий аргумент в пользу того, почему нам следует работать над игрой в го. Он сказал: «Крис, как ты думаешь, сможет ли опытный игрок, взглянув на доску го, выбрать лучший ход за полсекунды? Если ты так считаешь, то это значит, что можно выучить довольно хорошую стратегию выбора лучшего хода с помощью нейронной сети».
Причина в том, что полсекунды — это примерно время, необходимое вашей зрительной коре для выполнения одного прямого прохода [раунда обработки], и мы уже знали из ImageNET [важного конкурса по распознаванию изображений с использованием ИИ], что мы довольно хорошо умеем аппроксимировать вещи, для обработки которых требуется всего один прямой проход зрительной коры.

Я согласился с этим аргументом, поэтому решил устроиться стажером в [Google Brain] летом 2014 года.
Как же AlphaGo развивалась дальше?
Когда я пришел, в DeepMind была еще одна небольшая команда, с которой я должен был работать, — Аджа Хуанг и Дэвид Сильвер, — которая начала заниматься игрой Го. По сути, мне было поручено начать создавать нейронные сети. Это была мечта.
Мы перепробовали множество разных подходов, и многие из первоначальных попыток потерпели неудачу. В конце концов, я просто разочаровался и попробовал самый глупый и простой способ: попытаться предсказать следующий ход эксперта на заданной позиции на доске, обучив нейронную сеть на большом корпусе экспертных игр. И именно этот подход, как оказалось, действительно помог нам продвинуться вперед.
К концу лета мы провели небольшой матч с Торе Грепелем из DeepMind, который считал себя неплохим игроком в го, и мои сети его победили. После этого DeepMind убедились, что это станет реальностью, и начали вкладывать в проект ресурсы и создавать большую команду.
Насколько сложной задачей была победа над Ли Седолем?
Помню, летом 2014 года у нас на столе рядом стоял практически портрет Ли Седоля. Я не игрок в го, но Аджа [Хуан] – да. Каждый раз, когда я создавал новую сеть, она становилась немного лучше, и я поворачивался к Адже и говорил: «Окей, мы немного улучшили свою игру, насколько мы близки к Ли Седолю?» А Аджа поворачивался ко мне и говорил: «Крис, ты не понимаешь. Ли Седоль – всего в одном шаге от Бога».
Вы покинули команду AlphaGo перед этим важным событием. Почему?
Дэвид [Сильвер] сказал, что мы хотели бы оставить тебя и вывести этот проект на новый уровень, и, оглядываясь назад, это, возможно, было одним из самых глупых моих решений, я ему отказал. Я сказал, что, думаю, мне нужно сосредоточиться на своей докторской диссертации, я по натуре учёный. Я вернулся к своей работе над диссертацией и с этого момента лишь косвенно участвовал в проекте. Мне немного гордо сказать, что им потребовалось некоторое время, чтобы превзойти мои нейронные сети. Но в конечном итоге, артефакт, который играл против Ли Седоля, был результатом масштабных инженерных усилий и большой команды.
Какая атмосфера царила в Сеуле, когда AlphaGo одержала победу?
Находиться в Сеуле в тот момент было сложно описать словами. Это было эмоционально. Это было напряженно. Было чувство тревоги. Ты идешь с уверенностью, но никогда не знаешь наверняка. Это как спортивный матч. Статистически говоря, ты лучший игрок, но никогда не знаешь, чем все закончится. Я помню, как сидел в отеле, где мы играли матчи, и смотрел в окно. Мы находились на достаточно высоком уровне, чтобы видеть один из главных городских перекрестков. Я понял, что там большой экран, вроде Таймс-сквер, на котором показывали наш матч. А потом я посмотрел вдоль тротуаров, и люди просто выстроились в очередь, глядя на экран. Я слышал цифры, что сотни миллионов людей в Китае смотрели первую игру, но я помню тот момент как: о Боже, мы действительно остановили Восточную Азию на месте.
Насколько важна была AlphaGo для искусственного интеллекта в целом?
На первый взгляд, в мире больших языковых моделей (БЛМ) многое изменилось: в некоторых аспектах они теперь значительно отличаются от AlphaGo, но на самом деле существует технологическая основа, которая практически не изменилась.
Таким образом, первая часть алгоритма заключается в обучении нейронной сети предсказывать следующий ход. Современные LLM начинаются с того, что мы называем предварительным обучением для предсказания следующего слова на основе большого корпуса человеческого текста, который в основном находится в интернете.
На втором этапе разработки AlphaGo мы взяли информацию из этого корпуса человеческих данных, сжатую в нейронные сети, и уточнили ее с помощью обучения с подкреплением, чтобы привести поведение системы в соответствие с целью выигрыша в играх.
Когда вы учитесь предсказывать следующий ход эксперта, вы понимаете, что он стремится к победе, но это не единственное объяснение его следующего хода. Возможно, он не понимает, какой ход будет лучшим, возможно, он допустил ошибку, поэтому вам нужно привести всю систему в соответствие с вашей истинной целью, которой в случае AlphaGo была победа.
В больших языковых моделях после предварительного обучения ситуация аналогична. Нейронные сети не соответствуют тому, как мы хотим их использовать, поэтому мы выполняем ряд шагов обучения с подкреплением, которые приводят сети в соответствие с нашими целями.
В некотором смысле мало что изменилось.
Говорит ли это что-нибудь о том, в каких областях мы можем ожидать успеха от ИИ?
Это имеет последствия с точки зрения того, на чём мы решаем сосредоточиться. Если вы беспокоитесь о прогрессе в решении важных проблем, то ключевыми препятствиями, о которых вам следует беспокоиться, являются наличие достаточного количества данных для предварительного обучения и наличие сигналов вознаграждения для последующего обучения. Если у вас нет этих компонентов, никакие хитрости — например, сравнение одного алгоритма с другим — не помогут вам сдвинуться с места.
Вы испытывали какую-либо симпатию к Ли Седолю?
Летом 2014 года Ли Седоль был кумиром, недостижимой целью. И вдруг оказаться там лично, наблюдать за матчами, его стресс, тревога, осознание того, что соперник был гораздо достойнее, чем он думал, — это было очень тяжело. Не хотелось бы ставить человека в такое положение. Когда он проиграл матч, он извинился перед человечеством и сказал: «Это моя ошибка, а не ваша». Это было трагично.
В игре Го также существует обычай обсуждать матч со своим противником. Кто-то выигрывает или проигрывает, но в конце вы обсуждаете матч, анализируете игру и рассматриваете варианты развития событий вместе. Ли Седоль не мог этого сделать, потому что AlphaGo не был человеком, поэтому вместо этого он приглашал своих друзей для обсуждения матча, но это совсем не то же самое. В этом было что-то душераздирающее.
Но мне не нравились все эти разговоры о противостоянии человека и машины, окружавшие этот матч, потому что AlphaGo была создана целой командой людей. Это был результат усилий целого племени, создавшего артефакт, способный достичь совершенства в игре, в которой участвуют люди. В конечном итоге, именно в этот артефакт мы вложили всю свою кровь, пот и слезы.
Как вы считаете, останется ли место для человека в мире, если искусственный интеллект будет выполнять больше работы, требующей человеческого мышления?
Мы узнаём всё больше об игре в го, и если мы считаем эту игру прекрасной, а мы так считаем, и если ИИ может научить нас ещё большему об этой красоте, то в этом тоже есть много хорошего. Существует разница между целями и предназначением. Цель игры в го — победить, но это не единственная её цель — получить удовольствие. Настольные игры не уничтожаются присутствием ИИ; шахматы — процветающая индустрия. Мы по-прежнему ценим интригу и человеческие достижения в этом виде спорта.
Источник: www.newscientist.com


























