Робот рисует картину на холсте кистью в художественной студии.

Исследователи раскрыли скрытые составляющие креативности искусственного интеллекта.

Генераторы изображений созданы для имитации обучающих данных, так откуда же берется их кажущаяся креативность? Недавнее исследование предполагает, что это неизбежный побочный продукт их архитектуры. Комментарий Сохранить статью Прочитать позже

Роботизированная рука рисует на холсте, установленном на мольберте, в окружении ведер с краской и абстрактных произведений искусства в минималистичной комнате синих тонов. Брызги краски разлетаются по полу, сочетая механическую точность с художественным выражением.

Введение

Когда-то нам обещали беспилотные автомобили и роботов-горничных. Вместо этого мы стали свидетелями появления систем искусственного интеллекта, способных обыграть нас в шахматы, анализировать огромные массивы текста и сочинять сонеты. Это стало одним из величайших сюрпризов современной эпохи: физические задачи, которые легко даются людям, оказываются очень сложными для роботов, а алгоритмы все чаще способны имитировать наш интеллект.

Ещё один сюрприз, который давно озадачивает исследователей, — это присущая этим алгоритмам странная, необычная способность к творчеству.

Диффузионные модели, являющиеся основой инструментов генерации изображений, таких как DALL·E, Imagen и Stable Diffusion, предназначены для создания точных копий изображений, на которых они были обучены. Однако на практике они, похоже, импровизируют, смешивая элементы внутри изображений для создания чего-то нового — не просто бессмысленных цветовых пятен, а связных изображений с семантическим смыслом. В этом и заключается «парадокс» диффузионных моделей, говорит Джулио Бироли, исследователь в области искусственного интеллекта и физик из Высшей нормальной школы в Париже: «Если бы они работали идеально, они просто запоминали бы», — говорит он. «Но они этого не делают — на самом деле они способны создавать новые образцы».

Для генерации изображений диффузионные модели используют процесс, известный как шумоподавление. Они преобразуют изображение в цифровой шум (беспорядочное скопление пикселей), а затем собирают его заново. Это похоже на многократное измельчение картины в шредере до тех пор, пока от нее не останется лишь куча мелкой пыли, а затем на соединение кусочков обратно. Исследователи годами задавались вопросом: если модели просто собирают заново, то откуда берется новизна? Это как собрать измельченную картину в совершенно новое произведение искусства.

Теперь два физика сделали поразительное заявление: именно технические несовершенства самого процесса шумоподавления приводят к «креативности» диффузионных моделей. В статье, которая будет представлена на Международной конференции по машинному обучению 2025 года, дуэт разработал математическую модель обученных диффузионных моделей, чтобы показать, что их так называемая «креативность» на самом деле является детерминированным процессом — прямым и неизбежным следствием их архитектуры.

Проливая свет на «черный ящик» моделей диффузии, новое исследование может иметь серьезные последствия для будущих исследований в области искусственного интеллекта — и, возможно, даже для нашего понимания человеческой креативности. «Настоящая сила статьи заключается в том, что она делает очень точные прогнозы относительно чего-то очень нетривиального», — сказал Лука Амброджони, специалист по информатике из Университета Радбоуда в Нидерландах.

За здоровье!

Мейсон Камб, аспирант, изучающий прикладную физику в Стэнфордском университете и ведущий автор новой статьи, давно увлекается морфогенезом: процессами самоорганизации живых систем.

Один из способов понять развитие эмбрионов у человека и других животных — это так называемая модель Тьюринга, названная в честь математика XX века Алана Тьюринга. Модель Тьюринга объясняет, как группы клеток могут организовываться в отдельные органы и конечности. Важно отметить, что вся эта координация происходит на локальном уровне. Нет никакого «генерального директора», который бы контролировал триллионы клеток и следил за тем, чтобы все они соответствовали окончательному плану строения тела. Другими словами, у отдельных клеток нет готового плана строения тела, на основе которого они могли бы строить свою работу. Они просто действуют и вносят корректировки в ответ на сигналы от своих соседей. Эта система «снизу вверх» обычно работает бесперебойно, но время от времени дает сбой — например, образуются руки с лишними пальцами.

Когда в интернете начали появляться первые изображения, созданные с помощью ИИ, многие из них напоминали сюрреалистические картины, изображающие людей с лишними пальцами. Это сразу же натолкнуло Камба на мысль о морфогенезе: «Это было похоже на провал, которого можно ожидать от системы, работающей по принципу «снизу вверх», — сказал он.

К тому моменту исследователи в области ИИ уже знали, что модели диффузии используют несколько технических уловок при генерации изображений. Первая известна как локальность: они обращают внимание только на одну группу, или «фрагмент», пикселей за раз. Вторая заключается в том, что они придерживаются строгого правила при генерации изображений: если сдвинуть входное изображение всего на пару пикселей в любом направлении, например, система автоматически скорректирует его, внеся те же изменения в генерируемое изображение. Эта особенность, называемая трансляционной эквивариантностью, является способом модели сохранять когерентную структуру; без нее гораздо сложнее создавать реалистичные изображения.

Отчасти из-за этих особенностей модели диффузии не обращают внимания на то, где именно тот или иной фрагмент впишется в итоговое изображение. Они просто фокусируются на генерации одного фрагмента за раз, а затем автоматически подгоняют их на место, используя математическую модель, известную как функция оценки, которую можно рассматривать как цифровой шаблон Тьюринга.

Исследователи долгое время рассматривали локальность и эквивариантность как всего лишь ограничения процесса шумоподавления, технические особенности, которые мешали диффузионным моделям создавать идеальные копии изображений. Они не связывали их с креативностью, которая рассматривалась как явление более высокого порядка.

Их ждал ещё один сюрприз.

Сделано на местном уровне

Камб начал свою аспирантскую работу в 2022 году в лаборатории Сурьи Гангули, физика из Стэнфорда, который также работает в области нейробиологии и электротехники. В том же году OpenAI выпустила ChatGPT, что вызвало всплеск интереса к области, ныне известной как генеративный искусственный интеллект. Пока разработчики работали над созданием все более мощных моделей, многие ученые оставались сосредоточены на понимании внутренних механизмов работы этих систем.

Мужчина в зеленой рубашке с фракталами.Мужчина за ноутбуком в библиотеке

Мейсон Камб (слева) и Сурья Гангули обнаружили, что креативность в моделях распространения является следствием их архитектуры.

С этой целью Камб в конечном итоге выдвинул гипотезу о том, что локальность и эквивариантность приводят к творчеству. Это породило заманчивую экспериментальную возможность: если бы он смог разработать систему, которая ничего не делала бы, кроме оптимизации локальности и эквивариантности, она должна была бы вести себя как диффузионная модель. Этот эксперимент лежал в основе его новой статьи, которую он написал в соавторстве с Гангули.

Камб и Гангули называют свою систему машиной эквивариантной локальной оценки (ELS). Это не обученная модель диффузии, а скорее набор уравнений, которые могут аналитически предсказывать состав очищенных от шума изображений, основываясь исключительно на механике локальности и эквивариантности. Затем они взяли серию изображений, преобразованных в цифровой шум, и пропустили их через машину ELS и ряд мощных моделей диффузии, включая ResNet и UNets.

Результаты оказались «шокирующими», — сказал Гангули: в целом, машина ELS смогла точно воспроизвести результаты обученных моделей диффузии со средней точностью 90% — результат, который «беспрецедентен в машинном обучении», — сказал Гангули.

Результаты, по-видимому, подтверждают гипотезу Камба. «Как только вы ввели локальность, [творчество] возникло автоматически; оно совершенно естественным образом вышло из динамики», — сказал он. Он обнаружил, что те самые механизмы, которые ограничивали окно внимания диффузионных моделей во время процесса шумоподавления — заставляя их фокусироваться на отдельных участках, независимо от того, где они в конечном итоге окажутся в конечном продукте, — являются теми же самыми, которые обеспечивают их креативность. Феномен «дополнительных пальцев», наблюдаемый в диффузионных моделях, также является прямым побочным продуктом гиперфиксации модели на генерации локальных участков пикселей без какого-либо более широкого контекста.

Эксперты, опрошенные для этой статьи, в целом согласились с тем, что, хотя работа Камба и Гангули проливает свет на механизмы, лежащие в основе креативности в моделях распространения, многое остается загадкой. Например, большие языковые модели и другие системы искусственного интеллекта также, по-видимому, демонстрируют креативность, но они не используют локальность и эквивариантность.

«Я думаю, это очень важная часть истории, — сказал Бироли, — [но] это не вся история».

Создание творчества

Впервые исследователи показали, как креативность диффузионных моделей можно рассматривать как побочный продукт самого процесса шумоподавления, который можно формализовать математически и предсказать с беспрецедентно высокой степенью точности. Это почти как если бы нейробиологи поместили группу художников в аппарат МРТ и обнаружили общий нейронный механизм, лежащий в основе их креативности, который можно было бы записать в виде набора уравнений.

Сравнение с нейробиологией может выходить за рамки простой метафоры: работы Камба и Гангули также могут дать представление о «черном ящике» человеческого разума. «Человеческое и искусственное творчество, возможно, не так уж сильно отличаются», — сказал Бенджамин Хувер, исследователь машинного обучения из Технологического института Джорджии и IBM Research, изучающий модели диффузии. «Мы собираем вещи на основе того, что мы переживаем, что нам снилось, что мы видели, слышали или чего желаем. Искусственный интеллект также просто собирает строительные блоки из того, что он видел и что ему было поручено сделать». Согласно этой точке зрения, как человеческое, так и искусственное творчество может быть в основе неполного понимания мира: мы все стараемся заполнить пробелы в наших знаниях, и время от времени мы создаем что-то новое и ценное. Возможно, это и есть то, что мы называем творчеством.

Источник: www.quantamagazine.org

✅ Найденные теги: искусственный интеллект, Исследование, Исследователи, Креативность, новости, Составляющие

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Руководители ИТ-отделов в сфере здравоохранения рассматривают интеграцию ИИ как конкурентную необходимость.
Техники работают над квантовым компьютером в лаборатории, используя высокотехнологичное оборудование.
Тающий ледник с разломами на зелёной поляне, ручей с протекающей водой.
FDA одобрило беспроводную систему ANNE Maternal от компании Sibel Health.
ideipro logotyp
ideipro logotyp
Графики выживаемости пациентов после хирургии и трансплантации органов.
Volkswagen прекращает производство ID.4 в США, запасы автомобилей сохраняются «до 2027 года».
Современное здание с солнечными панелями, окружённое деревьями на закате.
Image Not Found
Спасательная операция на море: команда эвакуирует капсулу космического корабля из воды.

Как и когда посмотреть возвращение миссии «Артемида-2» на Землю

Приводнение экипажа миссии «Артемида II» запланировано на вечер пятницы, и НАСА будет вести прямую трансляцию исторического возвращения на борт. Капсула «Орион» после входа в атмосферу в ходе первой миссии «Артемида» в 2022 году. Фотография: MARIO TAMA/Getty Images…

Апр 10, 2026
Спасательная операция капсулы в океане с лодками и людьми, надувные буи.

Как и когда посмотреть возвращение миссии «Артемида-2» на Землю

Приводнение экипажа миссии «Артемида II» запланировано на вечер пятницы, и НАСА будет вести прямую трансляцию исторического возвращения на борт. Капсула «Орион» после входа в атмосферу в ходе первой миссии «Артемида» в 2022 году. Фотография: MARIO TAMA/Getty Images…

Апр 10, 2026
Поверхность с кратером, покрытая песком и камнями, освещена солнечным светом.

Российский прибор для изучения левитирующей пыли отправится на Луну в 2026 году

Прибор для изучения левитирующей пыли отправится на Луну Российский аппарат для изучения левитирующей лунной пыли – «Пылевой мониторинг Луны» (ПмЛ) доставлен в Китай для установки на китайскую межпланетную станцию “Чанъэ-7». Об этом сообщил на заседании президиума РАН…

Апр 10, 2026
Абстрактное изображение частиц, протекающих из центра, синие и разноцветные линии.

Впервые наблюдаются частицы, вылетающие из пустого пространства.

Проследив происхождение необычной, короткоживущей частицы, исследователи получили одни из самых убедительных на сегодняшний день доказательств того, что масса может возникать из флуктуаций в вакууме. Столкновения частиц внутри детектора STAR на соленоидальном трекере в RHIC, известного как STAR.…

Апр 10, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых