Image

Скрытые ингредиенты креативности ИИ

Генераторы изображений созданы так, чтобы имитировать обучающие данные. Откуда же берётся их кажущаяся креативность? Недавнее исследование показывает, что это неизбежный побочный продукт их архитектуры.

Изображение может содержать устройство и инструмент для публикации книги. Иллюстрация: Адриан Асторгано для журнала Quanta

Сохранить историю Сохранить эту историю Сохранить историю Сохранить эту историю

Оригинальная версия этой истории была опубликована в журнале Quanta Magazine.

Когда-то нам обещали беспилотные автомобили и роботов-горничных. Вместо этого мы наблюдаем развитие систем искусственного интеллекта, которые могут обыгрывать нас в шахматы, анализировать огромные объёмы текста и сочинять сонеты. Это стало одним из величайших сюрпризов современной эпохи: физические задачи, которые легко выполнить людям, оказываются очень сложными для роботов, в то время как алгоритмы всё чаще имитируют наш интеллект.

Еще одним сюрпризом, который долгое время озадачивал исследователей, стала способность этих алгоритмов к собственному, странному виду творчества.

Модели диффузии, составляющие основу таких инструментов генерации изображений, как DALL·E, Imagen и Stable Diffusion, предназначены для создания точных копий изображений, на которых они были обучены. Однако на практике они, по-видимому, импровизируют, смешивая элементы внутри изображений, создавая нечто новое — не просто бессмысленные цветовые пятна, а целостные изображения с семантическим значением. В этом и заключается «парадокс» моделей диффузии, считает Джулио Бироли, исследователь искусственного интеллекта и физик из Высшей нормальной школы в Париже: «Если бы они работали идеально, они должны были бы просто запоминать», — сказал он. «Но они этого не делают — они на самом деле способны создавать новые образцы».

Для создания изображений модели диффузии используют процесс, известный как шумоподавление. Они преобразуют изображение в цифровой шум (бессвязный набор пикселей), а затем собирают его заново. Это похоже на многократное прохождение картины через шредер, пока не останется лишь куча мелкой пыли, а затем на склеивание фрагментов. Годами исследователи задавались вопросом: если модели просто собирают изображения заново, то как в них появляется новизна? Это похоже на сборку изрешеченной картины в совершенно новое произведение искусства.

Теперь два физика сделали поразительное заявление: именно технические несовершенства самого процесса шумоподавления приводят к креативности диффузионных моделей. В докладе, представленном на Международной конференции по машинному обучению 2025 года, дуэт разработал математическую модель обученных диффузионных моделей, чтобы показать, что их так называемая креативность на самом деле является детерминированным процессом — прямым и неизбежным следствием их архитектуры.

Проливая свет на «чёрный ящик» моделей диффузии, новое исследование может оказать серьёзное влияние на будущие исследования искусственного интеллекта и, возможно, даже на наше понимание человеческой креативности. «Настоящая сила этой работы в том, что она даёт очень точные прогнозы относительно чего-то весьма нетривиального», — сказал Лука Амброджиони, специалист по информатике из Университета Радбауда в Нидерландах.

Снизу вверх

Мейсон Кэмб, аспирант, изучающий прикладную физику в Стэнфордском университете, и ведущий автор новой статьи, давно интересуется морфогенезом: процессами, посредством которых живые системы самоорганизуются.

Один из способов понять развитие эмбрионов человека и других животных — это рассмотреть так называемый шаблон Тьюринга, названный в честь математика XX века Алана Тьюринга. Шаблоны Тьюринга объясняют, как группы клеток могут организовываться в отдельные органы и конечности. Важно отметить, что вся эта координация происходит на локальном уровне. Нет никакого генерального директора, контролирующего триллионы клеток, чтобы убедиться, что все они соответствуют окончательному плану тела. Другими словами, у отдельных клеток нет какого-то готового чертежа тела, на котором можно было бы основывать свою работу. Они просто действуют и вносят коррективы в ответ на сигналы от своих соседей. Эта восходящая система обычно работает гладко, но время от времени она дает сбой — например, производя руки с дополнительными пальцами.

Самый популярный

  • Bluesky отменяет закон о проверке возраста в Миссисипи Цифровая культура Bluesky погружается в темноту в Миссисипи из-за закона о проверке возраста.
  • Как стать Vibe-кодером Компьютеры и программное обеспечение. Как стать программистом Vibe
  • Лучшие предложения распродажи REI ко Дню труда 2025 года Лучшие предложения от REI на распродаже ко Дню труда 2025 года
  • Подтверждено существование сверхэнергетического нейтрино, достигшего Земли в 2023 году. Но откуда оно взялось? Наука: Подтверждено существование сверхэнергетического нейтрино, достигшего Земли в 2023 году. Но откуда оно взялось?

Когда в интернете начали появляться первые изображения, сгенерированные ИИ, многие из них напоминали сюрреалистические картины, изображающие людей с дополнительными пальцами. Это сразу же навело Камба на мысль о морфогенезе: «Это было похоже на провал, которого можно было бы ожидать от [системы, работающей снизу вверх]», — сказал он.

К тому моменту исследователи искусственного интеллекта уже знали, что модели диффузии используют несколько технических ухищрений при генерации изображений. Первое из них известно как локальность: они учитывают только одну группу, или «участок», пикселей за раз. Второе заключается в том, что они придерживаются строгого правила при генерации изображений: например, если сдвинуть входное изображение всего на пару пикселей в любом направлении, система автоматически подстроится, чтобы внести те же изменения в генерируемое изображение. Эта особенность, называемая трансляционной эквивариантностью, позволяет модели сохранять целостную структуру; без неё создавать реалистичные изображения гораздо сложнее.

Отчасти из-за этих особенностей диффузионные модели не обращают внимания на то, где именно конкретный фрагмент будет располагаться на конечном изображении. Они просто генерируют один фрагмент за раз, а затем автоматически размещают их на месте, используя математическую модель, известную как функция оценки, которую можно представить как цифровой шаблон Тьюринга.

Исследователи долгое время считали локальность и эквивариантность всего лишь ограничениями процесса шумоподавления, техническими особенностями, мешающими диффузионным моделям создавать идеальные копии изображений. Они не связывали их с креативностью, которая считалась явлением более высокого порядка.

Их ждал еще один сюрприз.

Сделано локально

Камб начал свою аспирантскую работу в 2022 году в лаборатории Сурьи Гангули, физика из Стэнфорда, который также работает в области нейробиологии и электротехники. В том же году OpenAI выпустила ChatGPT, вызвав всплеск интереса к области, ныне известной как генеративный ИИ. Пока разработчики работали над созданием всё более мощных моделей, многие учёные продолжали стремиться понять внутреннюю работу этих систем.

На изображении может присутствовать одежда для подростков со светлыми волосами, короткими рукавами и футболкой.

Мейсон Кэмб (на фото) начал свою аспирантскую работу в 2022 году в лаборатории Сурьи Гангули.

Фотография: Чарльз Янг.

На изображении может присутствовать Саураб Пател, компьютер, электроника, ноутбук, голова, лицо, аксессуары и очки для взрослого человека.

Сурья Гангули — физик из Стэнфордского университета.

С этой целью Камб в конечном итоге разработал гипотезу о том, что локальность и эквивариантность приводят к творчеству. Это открыло заманчивую экспериментальную возможность: если бы он смог разработать систему, которая бы занималась только оптимизацией локальности и эквивариантности, она бы вела себя подобно диффузионной модели. Этот эксперимент лег в основу его новой статьи, написанной совместно с Гангули.

Камб и Гангули называют свою систему машиной эквивариантной локальной оценки (ELS). Это не обученная модель диффузии, а набор уравнений, позволяющий аналитически предсказывать состав изображений, очищенных от шума, исключительно на основе механизмов локальности и эквивариантности. Затем они взяли серию изображений, преобразованных в цифровой шум, и пропустили их как через машину ELS, так и через ряд мощных моделей диффузии, включая ResNets и UNets.

Гангули сказал, что результаты были «шокирующими»: по всем направлениям машина ELS смогла идентично сопоставить результаты обученных моделей диффузии со средней точностью 90 процентов — результат, который «неслыханный в машинном обучении», сказал Гангули.

Самый популярный

  • Bluesky отменяет закон о проверке возраста в Миссисипи Цифровая культура Bluesky погружается в темноту в Миссисипи из-за закона о проверке возраста.
  • Как стать Vibe-кодером Компьютеры и программное обеспечение. Как стать программистом Vibe
  • Лучшие предложения распродажи REI ко Дню труда 2025 года Лучшие предложения от REI на распродаже ко Дню труда 2025 года
  • Подтверждено существование сверхэнергетического нейтрино, достигшего Земли в 2023 году. Но откуда оно взялось? Наука: Подтверждено существование сверхэнергетического нейтрино, достигшего Земли в 2023 году. Но откуда оно взялось?

Результаты, по-видимому, подтверждают гипотезу Камба. «Как только вы вводите локальность, [творчество] становится автоматическим; оно совершенно естественным образом выпадает из динамики», — сказал он. Он обнаружил, что те же самые механизмы, которые ограничивали окно внимания диффузионных моделей в процессе шумоподавления, заставляя их фокусироваться на отдельных участках, независимо от того, какое место они в конечном итоге займут в конечном продукте, являются теми же самыми, которые обеспечивают их креативность. Феномен дополнительных пальцев, наблюдаемый в диффузионных моделях, также является прямым побочным продуктом гиперфиксации модели на создании локальных участков пикселей без какого-либо более широкого контекста.

Эксперты, опрошенные для этой статьи, в целом согласились с тем, что, хотя работа Камба и Гангули проливает свет на механизмы креативности в моделях диффузии, многое остаётся неясным. Например, большие языковые модели и другие системы искусственного интеллекта, по-видимому, также проявляют креативность, но они не используют локальность и эквивариантность.

«Я думаю, что это очень важная часть истории, — сказал Бироли, — [но] это не вся история».

Создание творчества

Впервые исследователи продемонстрировали, что креативность диффузионных моделей можно рассматривать как побочный продукт самого процесса шумоподавления, который можно формализовать математически и предсказать с беспрецедентно высокой точностью. Это похоже на то, как если бы нейробиологи поместили группу художников в аппарат МРТ и обнаружили общий нейронный механизм, лежащий в основе их творчества, который можно было бы записать в виде набора уравнений.

Сравнение с нейронаукой может выйти за рамки простой метафоры: работа Камба и Гангули может также пролить свет на «черный ящик» человеческого разума. «Креативность человека и ИИ может не так уж сильно отличаться», — сказал Бенджамин Гувер, исследователь машинного обучения в Технологическом институте Джорджии и IBM Research, изучающий модели диффузии. «Мы собираем вещи на основе того, что мы переживаем, о чем мы мечтали, что мы видели, слышали или желаем. ИИ также просто собирает строительные блоки из того, что он видел, и того, что его просят сделать». Согласно этой точке зрения, как человеческая, так и искусственная креативность могут быть в корне обусловлены неполнотой понимания мира: мы все делаем все возможное, чтобы заполнить пробелы в наших знаниях, и время от времени мы генерируем что-то новое и ценное. Возможно, это и есть то, что мы называем креативностью.

Оригинальная статья перепечатана с разрешения журнала Quanta Magazine, редакционно-независимого издания Фонда Саймонса, миссия которого заключается в повышении уровня понимания науки среди общественности путем освещения научных разработок и тенденций в области математики, физических и биологических наук.

Источник: www.wired.com

✅ Найденные теги: новости, Скрытые
Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Звёздное небо с галактиками и туманностями, космос, Вселенная, астрофотография.
Женщина с длинными тёмными волосами в синем свете, нейтральный фон.
Спутник исследует черную дыру в космосе, испускающий световой луч.
Пикачу использует электрический разряд на фоне неба.
Черный углеродное волокно с текстурой плетения, отражающий свет.
Круглый экран с изображением замка и горы, рядом электронная плата.
Код на экране компьютера, программирование, интерфейс разработчика.
Статистика использования видеокарт NVIDIA RTX, показывающая изменения за октябрь-февраль.
Макросъемка клетки под микроскопом, текстура и форма на голубом фоне.
Image Not Found
Звёздное небо с галактиками и туманностями, космос, Вселенная, астрофотография.

Система оповещения обсерватории Рубина отправила 800 000 сигналов в первую ночь наблюдений.

Астрономы будут получать оповещения о небесных явлениях в течение нескольких минут после их обнаружения. Теренс О'Брайен, редактор раздела «Выходные». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной…

Мар 2, 2026
Женщина с длинными тёмными волосами в синем свете, нейтральный фон.

Расследование в отношении 61-фунтовой машины, которая «пожирает» пластик и выплевывает кирпичи.

Обзор компактного пресса для мягкого пластика Clear Drop — и что будет дальше. Шон Холлистер, старший редактор Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего…

Мар 2, 2026
Черный углеродное волокно с текстурой плетения, отражающий свет.

Материал будущего: как работает «бессмертный» композит

Учёные из Университета штата Северная Каролина представили композит нового поколения, способный самостоятельно восстанавливаться после серьёзных повреждений.  Речь идёт о модифицированном армированном волокном полимере (FRP), который не просто сохраняет прочность при малом весе, но и способен «залечивать» внутренние…

Мар 2, 2026
Круглый экран с изображением замка и горы, рядом электронная плата.

Круглый дисплей Waveshare для креативных проектов

Круглый 7-дюймовый сенсорный дисплей от Waveshare создан для разработчиков и дизайнеров, которым нужен нестандартный экран.  Это IPS-панель с разрешением 1 080×1 080 пикселей, поддержкой 10-точечного ёмкостного сенсора, оптической склейкой и защитным закалённым стеклом, выполненная в круглом форм-факторе.…

Мар 2, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых