Фотоальбомы и снимки отпуска на пляже, включая коктейли и парусник на закате в Гавайях.

Одна картинка стоит тысячи (личных) слов: Иерархическое создание связных синтетических фотоальбомов

1a230d7b9327974b4b1e47ef168aaac0

Мы представляем метод генерации синтетических фотоальбомов с дифференциальной приватностью, который использует промежуточное текстовое представление и создает альбомы в иерархическом порядке.

Быстрые ссылки

Дифференцированная конфиденциальность (ДП) обеспечивает мощную, математически обоснованную гарантию того, что конфиденциальная информация о личности в наборе данных остается защищенной, даже когда набор данных используется для анализа. С момента появления ДП почти два десятилетия назад исследователи разработали дифференциально-конфиденциальные версии множества методов анализа данных и машинного обучения, от вычисления простых статистических показателей до тонкой настройки сложных моделей ИИ. Однако требование к организациям обеспечить конфиденциальность каждого аналитического метода может быть сложным, обременительным и чреватым ошибками.

Генеративные модели ИИ, такие как Gemini, предлагают более простое и эффективное решение. Вместо отдельной модификации каждого метода анализа, они создают единую, приватную, синтетическую версию исходного набора данных. Эти синтетические данные представляют собой совокупность общих шаблонов данных и не содержат уникальных деталей от какого-либо отдельного пользователя. Используя алгоритм обучения с дифференциальной приватностью, такой как DP-SGD, для тонкой настройки генеративной модели на исходном наборе данных, мы гарантируем, что синтетический набор данных является одновременно приватным и высокорепрезентативным по отношению к реальным данным. Любой стандартный, не приватный аналитический метод или моделирование затем могут быть выполнены на этом безопасном (и высокорепрезентативном) замещающем наборе данных, что упрощает рабочие процессы. Тонкая настройка DP — это универсальный инструмент, особенно ценный для генерации больших объемов контролируемых наборов данных в ситуациях, когда доступ к высококачественным, репрезентативным данным недоступен.

Большинство опубликованных работ по генерации частных синтетических данных сосредоточено на простых результатах, таких как короткие текстовые фрагменты или отдельные изображения, но современные приложения, использующие мультимодальные данные (изображения, видео и т. д.), основаны на моделировании сложных реальных систем и моделей поведения, которые простые, неструктурированные текстовые данные не могут адекватно отразить.

Мы представляем новый метод для частной генерации синтетических фотоальбомов, призванный решить проблему создания синтетических версий сложных, структурированных наборов данных на основе изображений. Эта задача сопряжена с уникальными трудностями, выходящими за рамки генерации отдельных изображений, в частности, с необходимостью сохранения тематической согласованности и единообразия символов на нескольких фотографиях в последовательном альбоме. Наш метод основан на преобразовании сложных данных изображений в текст и обратно. Наши результаты показывают, что этот процесс, при наличии строгих гарантий защиты данных, успешно сохраняет высокоуровневую семантическую информацию и тематическую согласованность в наборах данных, необходимые для эффективного анализа и моделирования.

Как (и почему) работает наш метод

Наш метод отличается от большинства других подходов к генерации частных синтетических изображений по двум основным параметрам: (1) мы используем промежуточное текстовое представление и (2) мы генерируем данные иерархически.

Вот как это работает:

  1. Мы создаём структурированное текстовое представление каждого оригинального альбома, заменяя каждую фотографию в альбоме подробным текстовым описанием, сгенерированным искусственным интеллектом, а также используем модель ИИ для создания текстового резюме каждого альбома.
  2. Затем мы в частном порядке дорабатываем пару больших языковых моделей для создания схожих структурированных представлений. Первая модель обучается генерировать краткие описания альбомов, а вторая — генерировать отдельные подписи к фотографиям на основе краткого описания альбома.
  3. Мы используем модели для создания структурированных иерархических представлений фотоальбомов. Для каждого фотоальбома мы сначала создаём краткое описание альбома, а затем, используя это описание в качестве контекста, генерируем подробную текстовую подпись к каждой фотографии в альбоме.
  4. Затем сгенерированные структурированные представления преобразуются в наборы изображений с помощью модели искусственного интеллекта, преобразующей текст в изображения.
Иллюстрация нашего метода создания синтетических фотоальбомов.

Иллюстрация нашего метода создания синтетических фотоальбомов.

Генерация текста как промежуточный этап перед генерацией изображений имеет ряд преимуществ. Во-первых, генерация текста — это главное преимущество большой языковой модели. Во-вторых, суммаризация текста по своей сути повышает конфиденциальность, поскольку описание изображения текстом — это операция с потерями, поэтому синтетические фотографии вряд ли будут точными копиями оригиналов, даже если дифференциальная конфиденциальность не включена. Наконец, генерация изображений намного дороже, чем генерация текста, поэтому, сначала генерируя текст, мы можем фильтровать альбомы на основе их содержимого, прежде чем тратить ресурсы на создание изображений, которые нас больше всего интересуют.

Наша иерархическая стратегия генерации гарантирует внутреннюю согласованность фотографий в каждом альбоме, поскольку каждая подпись к фотографии в альбоме генерируется с использованием одного и того же краткого описания альбома в качестве контекста. Кроме того, генерация структурированных представлений в два этапа (сначала краткие описания альбомов, а затем подписи к фотографиям) значительно экономит вычислительные ресурсы по сравнению с генерацией каждого представления за один раз. Поскольку стоимость обучения масштабируется квадратично с длиной контекста (из-за самовнимания), обучение двух моделей с более короткими контекстами обходится гораздо дешевле, чем обучение одной модели с длинным контекстом.

Может показаться, что описание изображений словами — слишком ресурсоемкая операция, не позволяющая сохранить какие-либо интересные характеристики исходных изображений, но простая демонстрация (без дифференциальной конфиденциальности, чтобы обеспечить сравнение бок о бок) иллюстрирует эффективность этого подхода. На рисунке ниже мы попросили Gemini описать изображение, используя несколько сотен слов, а затем передали ответный текст обратно в Gemini, заставив его сгенерировать изображение, соответствующее описанию. Хотя эта циклическая последовательность преобразований не удовлетворяет условию дифференциальной конфиденциальности, она иллюстрирует полезность текста как посредника для генерации синтетических изображений. Как говорится, картинка стоит тысячи слов — и, похоже, она стоит не намного больше!

Пример синтетической фотографии, созданной частным образом.

Слева: Оригинальное изображение. Справа: Синтетическое изображение.

Мы попросили Gemini описать исходное изображение текстом, а затем предложили Gemini сгенерировать синтетическое изображение на основе текстового описания.

В параллельной работе Ванга и др . было показано, как можно использовать текстовые посредники для генерации отдельных изображений с дифференциальной приватностью с помощью метода Private Evolution.

Оценка и результаты

Мы протестировали наш метод на наборе данных YFCC100M, репозитории, содержащем почти 100 миллионов изображений, выпущенных под лицензией Creative Commons. Мы сформировали «альбомы» из этих изображений, сгруппировав фотографии, сделанные одним и тем же пользователем в течение одного часа. Мы создали обучающие наборы для описанных выше больших языковых моделей, следя за тем, чтобы ни один пользователь не добавлял более одного примера в любой обучающий набор (ограничение вклада необходимо для обеспечения достоверности гарантии дифференциальной конфиденциальности).

После применения нашего метода для генерации синтетических фотоальбомов мы оценили, насколько хорошо они похожи на оригинальные альбомы. Сначала мы вычислили показатель MAUVE, основанный на нейронном встраивании, — меру семантического сходства между исходными и синтетическими структурированными представлениями.

На рисунке ниже показаны результаты сравнения показателей MAUVE между реальными и синтетическими описаниями альбомов, а также реальными и синтетическими подписями к фотографиям, как до, так и после тонкой настройки.

MAUVE сравнивает реальные и синтетические описания и подписи к альбомам.

Слева: показатели MAUVE для сравнения реальных и синтетических описаний альбомов. Справа: показатели MAUVE для сравнения реальных и синтетических подписей к фотографиям. Более высокие показатели MAUVE указывают на большее сходство. Более высокие значения параметра конфиденциальности ε подразумевают более слабые ограничения конфиденциальности.

Далее мы рассчитали наиболее часто встречающиеся темы в описаниях альбомов, представленные в таблице ниже, и обнаружили, что они очень похожи как в реальных, так и в синтетических данных.

Реальные краткие описания альбомов против синтетических кратких описаний альбомов

Слева: Наиболее распространенные темы в реальных обзорах альбомов. Справа: Наиболее распространенные темы в синтетических обзорах альбомов.

Наконец, непосредственный визуальный анализ синтетических фотоальбомов показывает, что каждый альбом, как правило, объединен общей темой, подобно реальным фотоальбомам, что демонстрируют примеры на рисунке ниже.

Созданные частными лицами синтетические фотоальбомы

Два фотоальбома, созданных с помощью синтетических изображений. Каждый альбом выдержан в определенной тематике ( верхний: поездка за яблоками; нижний: пара на лугу).

Заключение

Современные задачи в области искусственного интеллекта требуют не только конфиденциальных данных, но и данных, богатых структурой и контекстом, чего не могут обеспечить простые, неструктурированные данные. Применив наш иерархический метод, использующий текст в качестве промежуточного звена, к сложной задаче генерации связных синтетических фотоальбомов, мы успешно продемонстрировали путь расширения преимуществ синтетических данных за пределы простого текста или отдельных изображений.

Эта методология открывает новые захватывающие возможности для инноваций в области искусственного интеллекта, обеспечивающих конфиденциальность. Она помогает разрешить сохраняющееся противоречие между необходимостью в больших объемах высококачественных данных и необходимостью защиты конфиденциальности пользователей, прокладывая путь к более безопасному и универсальному развитию ИИ в важнейших отраслях.

Благодарности

Эта работа является результатом сотрудничества многих людей из Google Research, в том числе (в алфавитном порядке по фамилиям): Карима Амина, Евы Бертельс, Алекса Би, Рудражита Даса, Алессандро Эпасто, Аделя Джаванмарда, Вэйвей Конга, Денниса Крафта, Алекса Куракина, Натальи Пономаревой, Моники Риберо, Джейн Шапиро, Юрия Сушко, Умара Саеда и Сергея Васильвицкого.

    Источник: research.google

    ✅ Найденные теги: Иерархическое, Картинка, новости, Одна, Слов, Тысячи, Фотоальбомы

    ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

    Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

    галерея

    ideipro logotyp
    ideipro logotyp
    ideipro logotyp
    ideipro logotyp
    ideipro logotyp
    ideipro logotyp
    ideipro logotyp
    ideipro logotyp
    ideipro logotyp
    Image Not Found
    Мужчина в синей футболке с логотипом "rocket" на сером фоне.

    Стартап Rocket, занимающийся разработкой искусственного интеллекта, предлагает аналитические отчеты в стиле McKinsey по гораздо более низкой цене.

    Источник изображения: Rocket Индийский стартап Rocket делает ставку на то, что следующая большая возможность кроется в этапе, предшествующем программированию: в том, чтобы искусственный интеллект помогал людям принимать решения о том, что создавать. Компания запустила платформу, которая разрабатывает…

    Апр 11, 2026
    Векторная диаграмма: линейная и ортогональная составляющие векторного проецирования.

    Геометрия скалярного произведения: единичные векторы, проекции и интуитивное понимание.

    Геометрические основы, необходимые для понимания скалярного произведения. Делиться Визуализация аналогии с «тенью»: векторная проекция в трехмерном пространстве. Изображение предоставлено автором (создано с помощью Gemini). Введение Эта статья — первая из трёх частей. Каждая часть самодостаточна, поэтому вам…

    Апр 11, 2026
    Виктория расширяет пилотный проект «Виртуальная больница» на весь штат, а также публикует другие новости.

    Виктория расширяет пилотный проект «Виртуальная больница» на весь штат, а также публикует другие новости.

    Кроме того, Justice Health NSW осуществила первый запуск системы NSW SDPR (Social Disaster of Policy Program). Взаимодействие с пациентами. Фото: FatCamera/Getty Images В штате Виктория расширяется пилотный проект по оказанию виртуальной специализированной медицинской помощи. Правительство штата Виктория…

    Апр 11, 2026
    Цифровой отпечаток пальца на технологической плате; концепция безопасности данных.

    Учетные данные безопасности были случайно скомпрометированы на тысячах веб-сайтов.

    Исследователи выявили почти 10 000 веб-сайтов, где можно было найти ключи API, что позволило злоумышленникам получить доступ к конфиденциальной информации. Утечка ключей могла позволить злоумышленникам получить контроль над цифровой инфраструктурой компании. Vertigo3d/Getty Images Критически важные учетные данные…

    Апр 11, 2026

    Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых