Узнайте, почему некоторые головоломки ставят в тупик сверхразумный искусственный интеллект, но легки для людей, что это говорит о стремлении к созданию настоящего искусственного интеллекта общего назначения и почему видеоигры — это следующий рубеж

Существует множество способов проверить интеллектуальность искусственного интеллекта- плавность речи, понимание прочитанного или захватывающая дух сложная физика. Но некоторые тесты, которые, скорее всего, поставят в тупик ИИ, люди считают относительно простыми и даже занимательными. Хотя ИИ все чаще преуспевают в задачах, требующих высокого уровня знаний человека, это не означает, что они близки к достижению общего искусственного интеллекта, или AGI. AGI требует, чтобы ИИ мог получать очень небольшое количество информации и использовать ее для обобщения и адаптации к совершенно новым ситуациям. Эта способность, которая является основой для обучения человека, остается сложной для ИИ.
Одним из тестов, предназначенных для оценки способности ИИ к обобщению, является корпус абстракций и рассуждений, или ARC: коллекция крошечных головоломок с цветными сетками, в которых игроку предлагается вывести скрытое правило и затем применить его к новой сетке. Разработанный исследователем искусственного интеллекта Франсуа Шолле в 2019 году, он лег в основу некоммерческой программы ARC Prize Foundation, которая проводит тестирование — теперь это отраслевой эталон, используемый всеми основными моделями искусственного интеллекта. Организация также разрабатывает новые тесты и регулярно использует два из них (ARC-AGI-1 и его более сложный преемник ARC-AGI-2). На этой неделе фонд запускает программу ARC-AGI-3, которая специально разработана для тестирования агентов с искусственным интеллектом и основана на том, чтобы заставить их играть в видеоигры.
Scientific American поговорил с президентом фонда ARC Prize, исследователем искусственного интеллекта и предпринимателем Грегом Камрадтом, чтобы понять, как эти тесты оценивают ИИ, что они говорят нам о потенциале AGI и почему они часто являются сложными для моделей глубокого обучения, хотя многие люди, как правило, находят их относительно простыми. Ссылки на тесты приведены в конце статьи.
О поддержке научной журналистики
Если вам понравилась эта статья, подумайте о том, чтобы поддержать нашу журналистику, отмеченную наградами, подписавшись на нее. Приобретая подписку, вы помогаете обеспечить будущее впечатляющих историй об открытиях и идеях, формирующих наш современный мир.
[Ниже приводится отредактированная стенограмма интервью.]
Какое определение интеллекта соответствует ARC-AGI-1?
Наше определение интеллекта — это ваша способность узнавать новое. Мы уже знаем, что искусственный интеллект может побеждать в шахматах. Мы знаем, что он может победить в Го. Но эти модели нельзя распространить на новые области; они не могут пойти и выучить английский. Итак, Франсуа Шолле разработал тест под названием ARC-AGI — он учит вас мини-навыкам в вопросе, а затем просит вас продемонстрировать этот мини-навык. По сути, мы обучаем чему-то и просим вас повторить навык, который вы только что освоили. Таким образом, тест измеряет способность модели к обучению в узкой области. Но мы утверждаем, что он не измеряет AGI, поскольку все еще находится в ограниченной области [в которой обучение применимо только к ограниченной области]. Это показатель того, что ИИ может обобщать, но мы не утверждаем, что это AGI.
Как вы здесь определяете AGI?
Я смотрю на это двумя способами. Первый — более технологичный, а именно: «Может ли искусственная система сравниться по эффективности обучения с человеческой?» Я имею в виду, что после рождения люди узнают много нового, помимо своих обучающих данных. На самом деле, у них на самом деле нет данных об обучении, кроме нескольких эволюционных предпосылок. Итак, мы учимся говорить по-английски, мы учимся водить машину, мы учимся ездить на велосипеде — все это выходит за рамки наших тренировочных данных. Это называется обобщением. Когда вы можете делать что-то, выходящее за рамки того, чему вас сейчас обучали, мы называем это интеллектом. Альтернативное определение УЧИ, которое мы используем, — это когда мы больше не можем решать проблемы, с которыми могут справиться люди, а ИИ не может — вот когда у нас есть УЧИ. Это определение, основанное на наблюдениях. Обратная сторона также верна, и это до тех пор, пока премия ARC или человечество в целом все еще могут находить проблемы, с которыми могут справиться люди, но не искусственный интеллектне можем, тогда у нас нет УЧИ. Одним из ключевых факторов, влияющих на бенчмарк François Chollet, является то, что мы тестируем на нем людей, и среднестатистический человек может выполнять эти задачи и решать эти проблемы, но ИИ по-прежнему испытывает трудности с этим. Причина, по которой это так интересно, заключается в том, что некоторые продвинутые ИИ, такие как Grok, могут сдать любой экзамен на уровне выпускника или делать все эти безумные вещи, но это требует острого интеллекта. Он все еще не обладает способностью к обобщению, присущей человеку. И это то, что показывает этот тест.
Чем ваши критерии отличаются от тех, которые используются другими организациями?
Одна из особенностей, которая отличает нас, заключается в том, что мы требуем, чтобы наш тест был доступен людям. Это противоречит другим критериям, в которых они создают проблемы «Доктор философии плюс плюс плюс». Мне не нужно говорить, что искусственный интеллект умнее меня — я и так знаю, что OpenAI o3 может многое делать лучше меня, но у него нет человеческих способностей к обобщениям. Это то, что мы измеряем, поэтому нам нужно протестировать людей. На самом деле мы протестировали 400 человек с помощью ARC-AGI-2. Мы собрали их в комнате, снабдили компьютерами, провели демографический скрининг, а затем провели тест. Средний показатель успеваемости по ARC-AGI-2 составил 66 процентов. Однако в совокупности обобщенные ответы от пяти до 10 человек будут содержать правильные ответы на все вопросы теста ARC2.
Что делает этот тест сложным для искусственного интеллекта и относительно простым для людей?
Есть две вещи. Люди невероятно эффективны в обучении на примере, а это значит, что они могут взглянуть на проблему и, возможно, с помощью одного или двух примеров приобрести мини-навык или трансформацию, а затем пойти и осуществить это. Алгоритм, который работает в голове человека, на порядки лучше и эффективнее того, что мы наблюдаем с помощью искусственного интеллекта прямо сейчас.
В чем разница между ARC-AGI-1 и ARC-AGI-2?
Итак, ARC-AGI-1, Франсуа Шолле, создал сам. Это было около 1000 заданий. Это было в 2019 году. По сути, он создал минимально возможную версию, чтобы измерить обобщение, и она продержалась пять лет, потому что глубокое обучение вообще не могло ее затронуть. Это было даже близко не так. Затем в 2024 году OpenAI выпустила reasoning models, которые начали продвигаться вперед, что продемонстрировало постепенные изменения в возможностях ИИ. Затем, когда мы перешли к ARC-AGI-2, мы немного углубились в изучение того, что может сделать человек, а чего не может искусственный интеллект. Для решения каждой задачи требуется немного больше планирования. Таким образом, вместо того, чтобы решать задачи в течение пяти секунд, люди могут справиться с ними за минуту или две. Правила более сложные, а таблицы больше, поэтому вам нужно быть более точным в своем ответе, но это более или менее та же концепция…. Сейчас мы запускаем предварительный просмотр для разработчиков ARC-AGI-3, который полностью отличается от этого формата. Новый формат будет интерактивным. Так что думайте об этом скорее как о тестировании агентов.
Как ARC-AGI-3 будет тестировать агенты по-другому по сравнению с предыдущими тестами?
Если подумать о повседневной жизни, то мы редко принимаем решения без учета состояния. Когда я говорю «без сохранения состояния», я имею в виду просто вопрос и ответ. Сейчас все тесты в той или иной степени являются тестами без сохранения состояния. Если вы зададите языковой модели вопрос, она даст вам единственный ответ. Есть много такого, что вы не можете протестировать с помощью теста без сохранения состояния. Вы не можете протестировать планирование. Вы не можете протестировать исследование. Вы не можете протестировать интуитивное понимание вашей среды или целей, которые с этим связаны. Итак, мы создаем 100 новых видеоигр, которые будем использовать для тестирования людей, чтобы убедиться, что люди могут в них играть, потому что это основа для нашего теста. А затем мы собираемся внедрить ИИ в эти видеоигры и посмотреть, смогут ли они понять эту среду, которую они никогда раньше не видели. На сегодняшний день, во время нашего внутреннего тестирования, у нас не было ни одного ИИ, способного пройти хотя бы один уровень в одной из игр.
Можете ли вы описать здесь видеоигры?
Каждая «среда» или видеоигра представляет собой двумерную головоломку на основе пикселей. Эти игры структурированы в виде отдельных уровней, каждый из которых предназначен для обучения игрока (человека или искусственного интеллекта) определенному мини-навыку. Чтобы успешно пройти уровень, игрок должен продемонстрировать владение этим навыком, выполнив запланированную последовательность действий.
Чем использование видеоигр для тестирования AGI отличается от способов, которыми видеоигры ранее использовались для тестирования систем искусственного интеллекта?
Видеоигры уже давно используются в качестве эталонов в исследованиях искусственного интеллекта, и игры Atari являются популярным примером. Однако традиционные тесты видеоигр сталкиваются с рядом ограничений. Популярные игры содержат обширные общедоступные данные об обучении, не имеют стандартизированных показателей оценки производительности и допускают использование методов грубой силы, включающих миллиарды симуляций. Кроме того, разработчики, создающие ИИ-агентов, как правило, заранее знакомы с этими играми — непреднамеренно внедряя свои собственные идеи в решения.
Попробуйте ARC-AGI-1, ARC-AGI-2 и ARC-AGI-3.



























