Как работает креативность в нейросетях.
Современные нейросети умеют генерировать изображения, которых никогда не существовало: лица несуществующих людей, уникальные объекты, фантастические сцены. Кажется, что они обладают воображением. Но на самом деле всё устроено иначе.
Формально, диффузионные модели (один из самых популярных типов генераторов) обучаются просто воспроизводить статистику обучающего датасета. То есть, в идеале — «копировать» реальные изображения. Но на практике они создают новые комбинации деталей, которых не было в обучении. Это выглядит как креативность, и задача исследователей — понять, откуда она берётся.
Эксперты проанализировали, как свёрточные нейросети формируют изображения. Они выделили два ключевых свойства таких моделей:🔹 Локальность — нейросеть работает с небольшими фрагментами изображения.🔹 Эквивариантность — модель не привязана к конкретному положению фрагментов на картинке.
Вместе эти свойства ограничивают нейросеть: она не может точно воспроизвести весь образ, а только оперировать локальной информацией. В результате, при генерации изображения собирается мозаика из фрагментов, похожих на те, что были в датасете, но их расположение и комбинации — новые.
Эксперты построили аналитическую модель. Они описывают процесс генерации как последовательное добавление патчей (фрагментов) из обучающих изображений. Эта модель объясняет, почему модель умеет генерировать правдоподобные, но новые изображения, и почему возникают типичные ошибки генерации (например, «лишние» части тела, искажённые цифры).
Эта теория точно предсказывает поведение реальных моделей, работающих на реальных данных. Причём без глубокого обучения — только с помощью ограниченного набора параметров. Это редкий случай, когда поведение сложной нейросети описывается аналитически и прозрачно.
Это исследование даёт понимание природы генерации (откуда берётся новизна), помогает объяснить и контролировать качество и ошибки генераций.
Вывод: Так называемая «креативность» нейросетей — это не магия. Это результат структурных ограничений моделей: они комбинируют знакомые фрагменты в новых конфигурациях. Предложенная математическая модель показывает, как это работает, и открывает путь к более осознанному управлению генерацией изображений.
Если упростить: ИИ не творит с нуля, он умело пересобирает знакомое в новое
Вообще-то создавать с «нуля» удел немногих, для этого надо иметь мировоззрение широкое и разнообразное как минимум, а как максимум и этого мало. Фантазеры это двигатели прогресса. Какая уж тут нейросеть.



























