Инструмент на основе искусственного интеллекта может помочь в разработке более совершенных датчиков и камер для роботов или беспилотных автомобилей.
Исследователи разработали вычислительную модель, позволяющую изучать и исследовать эволюцию систем зрения на протяжении миллионов лет с помощью воплощенных агентов искусственного интеллекта. Изображение: iStock
Почему у людей в процессе эволюции развились глаза, которые мы имеем сегодня?
Хотя ученые не могут вернуться в прошлое, чтобы изучить факторы окружающей среды, которые сформировали эволюцию разнообразных систем зрения, существующих в природе, новая вычислительная модель, разработанная исследователями из Массачусетского технологического института, позволяет им изучать эту эволюцию в агентах искусственного интеллекта.
Разработанная ими система, в которой воплощенные в искусственный интеллект агенты развивают зрение и учатся видеть на протяжении многих поколений, представляет собой своего рода «научную песочницу», позволяющую исследователям воссоздавать различные эволюционные деревья. Пользователь делает это, изменяя структуру мира и задачи, которые выполняют агенты ИИ, такие как поиск пищи или различение объектов.
Это позволяет им изучать, почему у одного животного в процессе эволюции развились простые светочувствительные пятна в качестве глаз, в то время как у другого — сложные глаза типа камеры.
Эксперименты исследователей с использованием этой модели демонстрируют, как задачи влияли на эволюцию глаз у животных. Например, они обнаружили, что задачи навигации часто приводили к эволюции сложных глаз, состоящих из множества отдельных элементов, как у насекомых и ракообразных.
С другой стороны, если агенты сосредотачивались на различении объектов, у них с большей вероятностью развивались глаза камерного типа с радужной оболочкой и сетчаткой.
Эта концепция может позволить ученым исследовать гипотетические сценарии развития событий в системах машинного зрения, которые трудно изучать экспериментально. Она также может помочь в разработке новых датчиков и камер для роботов, дронов и носимых устройств, которые обеспечивают баланс между производительностью и реальными ограничениями, такими как энергоэффективность и технологичность производства.
«Хотя мы никогда не сможем вернуться назад и выяснить все детали того, как происходила эволюция, в этой работе мы создали среду, в которой можем, в некотором смысле, воссоздать эволюцию и исследовать окружающую среду различными способами. Этот метод научных исследований открывает двери для множества возможностей», — говорит Кушагра Тивари, аспирант лаборатории MIT Media Lab и соавтор статьи, посвященной этому исследованию.
Вместе с ним в работе над статьей приняли участие соавтор и аспирант Аарон Янг; аспирант Цофи Клингхоффер; бывший постдокторант Акшат Дейв, ныне доцент Университета Стоуни-Брук; Томасо Поджио, профессор кафедры нейробиологии и когнитивных наук имени Юджина Макдермотта, исследователь Института Макговерна и содиректор Центра изучения мозга, разума и машин; старшие авторы Брайан Ченг, постдокторант Центра изучения мозга, разума и машин и будущий доцент Калифорнийского университета в Сан-Франциско; и Рамеш Раскар, доцент кафедры медиаискусства и наук и руководитель группы Camera Culture в Массачусетском технологическом институте; а также другие сотрудники Университета Райса и Лундского университета. Исследование опубликовано сегодня в журнале Science Advances.
Создание научной песочницы
Работа над статьей началась с обсуждения между исследователями возможности открытия новых систем машинного зрения, которые могли бы быть полезны в различных областях, например, в робототехнике. Чтобы проверить свои гипотетические сценарии, исследователи решили использовать искусственный интеллект для изучения множества эволюционных возможностей.
«В детстве меня вдохновляли вопросы типа „а что если“ на изучение науки. Благодаря искусственному интеллекту у нас появилась уникальная возможность создавать воплощенных агентов, которые позволяют нам задавать вопросы, на которые обычно невозможно ответить», — говорит Тивари.
Для создания этой эволюционной песочницы исследователи взяли все элементы камеры, такие как датчики, объективы, диафрагмы и процессоры, и преобразовали их в параметры, которые мог бы изучить воплощенный в ней агент искусственного интеллекта.
Они использовали эти строительные блоки в качестве отправной точки для алгоритмического механизма обучения, который агент будет использовать по мере эволюции своих глаз с течением времени.
«Мы не могли смоделировать всю Вселенную атом за атомом. Было сложно определить, какие ингредиенты нам нужны, какие не нужны, и как распределить ресурсы между этими различными элементами», — говорит Ченг.
В рамках данной модели эволюционный алгоритм может выбирать, какие элементы следует развивать, исходя из ограничений окружающей среды и задачи агента.
Каждая среда предназначена для решения одной задачи, например, навигации, определения пищи или отслеживания добычи, имитирующей реальные визуальные задачи, которые животные должны решать для выживания. В начале работы агенты имеют один фоторецептор, который наблюдает за окружающим миром, и связанную с ним модель нейронной сети, обрабатывающую визуальную информацию.
Затем, на протяжении всего жизненного цикла каждого агента, он обучается с помощью обучения с подкреплением — метода проб и ошибок, при котором агент получает вознаграждение за достижение цели своей задачи. В среду также включены ограничения, например, определенное количество пикселей для визуальных датчиков агента.
«Эти ограничения определяют процесс проектирования, подобно тому как в нашем мире существуют физические ограничения, например, законы физики света, которые повлияли на конструкцию наших собственных глаз», — говорит Тивари.
На протяжении многих поколений агенты развивают различные элементы систем зрения, которые максимизируют вознаграждение.
Их методика использует механизм генетического кодирования для компьютерного моделирования эволюции, в ходе которой отдельные гены мутируют, контролируя развитие агента.
Например, морфологические гены определяют, как агент воспринимает окружающую среду, и контролируют положение глаз; оптические гены определяют, как глаз взаимодействует со светом, и определяют количество фоторецепторов; а нейронные гены контролируют способность агентов к обучению.
Проверка гипотез
В ходе экспериментов в рамках этой модели исследователи обнаружили, что выполняемые задачи оказывают существенное влияние на развитие зрительных систем у агентов.
Например, у агентов, ориентированных на навигационные задачи, развилось зрение, позволяющее максимально повысить пространственную ориентацию за счет низкоразрешающего восприятия, в то время как у агентов, которым поручено обнаруживать объекты, зрение было больше сосредоточено на фронтальном, а не на периферическом зрении.
Другой эксперимент показал, что больший размер мозга не всегда означает лучшую обработку визуальной информации. В систему одновременно может поступать лишь определённое количество визуальной информации, что обусловлено физическими ограничениями, такими как количество фоторецепторов в глазах.
«В какой-то момент больший мозг перестаёт помогать агентам, а в природе это было бы пустой тратой ресурсов», — говорит Ченг.
В будущем исследователи планируют использовать этот симулятор для изучения оптимальных систем машинного зрения для конкретных задач, что может помочь ученым в разработке специализированных датчиков и камер. Они также хотят интегрировать LLM-модели в свою систему, чтобы пользователям было проще задавать вопросы типа «а что если» и изучать дополнительные возможности.
«Задавать вопросы более творческим способом действительно приносит пользу. Я надеюсь, это вдохновит других на создание более масштабных концепций, где вместо того, чтобы сосредотачиваться на узких вопросах, охватывающих определенную область, они будут стремиться ответить на вопросы гораздо более широкого масштаба», — говорит Ченг.
Данная работа частично финансировалась Центром изучения мозга, разума и машин, а также программой DARPA (Dial) по математике для разработки алгоритмов и архитектур.
Источник: news.mit.edu























