Система, генерирующая изображения путем случайных колебаний лазерного луча, может значительно сократить потребление энергии по сравнению со стандартными инструментами ИИ.
Красочные произведения искусства в стиле Винсента Ван Гога, созданные с помощью традиционной модели диффузии (слева в каждом наборе из трех) и оптического генератора изображений (справа) Шици Чен и др. 2025 год
Генератор изображений на базе ИИ, использующий для создания изображений свет, а не традиционное вычислительное оборудование, может потреблять в сотни раз меньше энергии.
Когда модель искусственного интеллекта создаёт изображение из текста, она обычно использует процесс, называемый диффузией. Сначала ИИ показывается большая коллекция изображений и объясняется, как их нейтрализовать с помощью статистического шума, а затем он кодирует эти закономерности в набор правил. Получив новое зашумлённое изображение, он может использовать эти правила для обратного процесса: за множество шагов он стремится к созданию связного изображения, соответствующего заданному текстовому запросу.
Реклама
Для получения реалистичных изображений высокого разрешения диффузия включает множество последовательных этапов, требующих значительных вычислительных мощностей. В апреле OpenAI сообщила, что её новый генератор изображений создал более 700 миллионов изображений за первую неделю работы. Для удовлетворения такого объёма потребностей требуются огромные объёмы энергии и воды для питания и охлаждения машин, на которых работают модели.
Айдоган Озкан из Калифорнийского университета в Лос-Анджелесе и его коллеги разработали генератор изображений на основе диффузии, работающий с использованием светового луча. В то время как процесс кодирования является цифровым и требует небольшого количества энергии, процесс декодирования полностью основан на свете и не требует вычислительной мощности.
«В отличие от цифровых диффузионных моделей, требующих сотен или тысяч итеративных шагов, этот процесс обеспечивает генерацию изображения в моментальном снимке, не требуя дополнительных вычислений, помимо начального кодирования», — говорит Озкан.

Система сначала использует цифровой кодер, обученный на общедоступных наборах изображений, который может генерировать статические сигналы, преобразуемые в изображения. Затем этот кодер был использован с жидкокристаллическим экраном, называемым пространственным модулятором света (SLM), который физически «впечатывает» эти статические сигналы в лазерный луч. Когда лазерный луч проходит через второй декодирующий SLM, он мгновенно формирует на экране желаемое изображение, записанное камерой.
Озкан и его команда использовали свою систему для создания чёрно-белых изображений простых объектов, таких как цифры от 1 до 9 или предметы одежды, которые используются для тестирования моделей диффузии, а также полноцветных изображений в стиле Винсента Ван Гога. Результаты в целом были похожи на результаты, получаемые с помощью обычных генераторов изображений.
«Это, пожалуй, первый пример, когда оптическая нейронная сеть — не просто лабораторная игрушка, а вычислительный инструмент, способный выдавать результаты, имеющие практическую ценность», — говорит Александр Львовский из Оксфордского университета.
При создании картин в стиле Ван Гога система потребляла всего несколько миллиджоулей энергии на изображение, в основном для жидкокристаллического экрана, в то время как традиционные модели диффузии потребляют сотни или тысячи джоулей. «Для сравнения: последнее эквивалентно количеству электроэнергии, потребляемому электрическим чайником за секунду, тогда как потребление оптической машины составило бы несколько миллионных долей секунды», — говорит Львовский.
Хотя систему необходимо будет адаптировать для работы в центрах обработки данных вместо широко распространенных инструментов генерации изображений, Озкан утверждает, что она может найти применение в носимой электронике, например, в очках с искусственным интеллектом, из-за низкого энергопотребления.
Природа DOI: 10.1038/s41586-025-09446-5
Источник: www.newscientist.com
























