Прочитайте объявление
Введение
Обзор Соры
Sora — это модель генерации видео от OpenAI, предназначенная для обработки текстовых, графических и видеовходных данных и генерации нового видео на выходе. Пользователи могут создавать видео с разрешением до 1080p (максимум 20 секунд) в различных форматах, генерировать новый контент из текста, а также улучшать, микшировать и смешивать собственные ресурсы. Пользователи смогут просматривать ленты «Рекомендуемые» и «Недавние», демонстрирующие работы сообщества и предлагающие вдохновение для новых идей. Sora основана на знаниях, полученных с помощью моделей DALL·E и GPT, и призвана предоставить людям расширенные инструменты для создания историй и творческого самовыражения.
Sora — это диффузионная модель, которая генерирует видео, начиная с базового видео, которое выглядит как статический шум, и постепенно преобразует его, удаляя шум на протяжении многих шагов. Предоставляя модели возможность прогнозирования множества кадров одновременно, мы решили сложную задачу обеспечения неизменности объекта даже при его временном исчезновении из поля зрения. Подобно моделям GPT, Sora использует архитектуру трансформера, что обеспечивает превосходную производительность масштабирования.
Sora использует технику перекодирования из DALL·E 3, которая включает в себя генерацию подробных подписей к визуальным обучающим данным. В результате модель способна более точно следовать текстовым инструкциям пользователя в сгенерированном видео.
Помимо возможности создавать видео исключительно на основе текстовых инструкций, модель способна взять существующее статичное изображение и сгенерировать из него видео, анимируя содержимое изображения с точностью и вниманием к мелким деталям. Модель также может взять существующее видео и расширить его или заполнить недостающие кадры. Sora служит основой для моделей, способных понимать и моделировать реальный мир, что, по нашему мнению, станет важной вехой на пути к созданию искусственного общего интеллекта (AGI).
Возможности Sora также могут создавать новые риски, такие как потенциальное неправомерное использование изображений или создание вводящего в заблуждение или откровенного видеоконтента. Для безопасного развертывания Sora в продукте мы использовали опыт, полученный в ходе работы по обеспечению безопасности при развертывании DALL·E в ChatGPT, а также API и меры по снижению рисков для других продуктов OpenAI, таких как ChatGPT. В этой системной карте описан полученный комплекс мер по снижению рисков, усилия внешних групп экспертов по проверке на проникновение, оценки и текущие исследования для дальнейшего совершенствования этих мер защиты.
Модель данных
Как описано в нашем техническом отчете 1 от февраля 2024 года, Sora черпает вдохновение из больших языковых моделей, которые приобретают универсальные возможности благодаря обучению на данных интернет-масштаба. Успех парадигмы LLM частично обеспечивается использованием токенов, которые элегантно объединяют различные модальности текста — код, математику и различные естественные языки. В Sora мы рассмотрели, как генеративные модели визуальных данных могут унаследовать такие преимущества. В то время как LLM используют текстовые токены, Sora использует визуальные фрагменты. Ранее было показано, что фрагменты являются эффективным представлением для моделей визуальных данных. Мы обнаружили, что фрагменты представляют собой масштабируемое и эффективное представление для обучения генеративных моделей на различных типах видео и изображений. В общих чертах, мы преобразуем видео в фрагменты, сначала сжимая видео в латентное пространство меньшей размерности, а затем разлагая это представление на пространственно-временные фрагменты.
Модель Sora была обучена на различных наборах данных, включая как общедоступные данные, так и данные, полученные в рамках партнерских соглашений, а также пользовательские наборы данных, разработанные внутри компании. К ним относятся:
- Выбирайте общедоступные данные , в основном собранные из стандартных отраслевых наборов данных для машинного обучения и результатов веб-сканирования.
- Конфиденциальные данные, полученные в результате партнерских соглашений . Мы заключаем партнерские соглашения для доступа к данным, не находящимся в открытом доступе. Например, мы сотрудничали с Shutterstock и Pond5 в создании и предоставлении изображений, сгенерированных искусственным интеллектом. Мы также сотрудничаем с ними для заказа и создания наборов данных, соответствующих нашим потребностям.
- Данные, полученные от людей: отзывы от тренеров по ИИ, специалистов по тестированию на проникновение и сотрудников.
Предварительная фильтрация и предварительная обработка данных для обучения
В дополнение к мерам, применяемым после этапа предварительного обучения, фильтрация на этапе предварительного обучения может обеспечить дополнительный уровень защиты, который, наряду с другими мерами безопасности, помогает исключить нежелательные и вредные данные из наших наборов данных. Таким образом, перед обучением все наборы данных проходят этот процесс фильтрации, удаляя наиболее откровенный, насильственный или иным образом чувствительный контент (например, некоторые символы ненависти), что представляет собой расширение методов, используемых для фильтрации данных, на которых мы обучали другие наши модели, включая DALL·E 2 и DALL·E 3.
Выявление рисков и подготовка к внедрению
Мы провели тщательный анализ как потенциальных случаев неправомерного использования, так и реальных примеров творческого применения, чтобы улучшить дизайн Sora и меры безопасности. После анонса Sora в феврале 2024 года мы сотрудничали с сотнями художников, дизайнеров и кинематографистов из более чем 60 стран, чтобы получить обратную связь о том, как усовершенствовать модель, чтобы она была максимально полезна для творческих специалистов. Мы также провели ряд внутренних и внешних оценок с участием экспертов по тестированию на ошибки, чтобы выявить и оценить риски и итеративно улучшить наши меры безопасности и снижения рисков.
Наша система безопасности для Sora основана на полученных знаниях и существующих мерах по обеспечению безопасности, которые мы используем в других моделях и продуктах, таких как DALL·E и ChatGPT, а также на специально разработанных мерах безопасности для нашего видеопродукта. Поскольку это мощный инструмент, мы применяем итеративный подход к обеспечению безопасности, особенно в тех областях, где важен контекст или мы предвидим новые риски, связанные с видео. Примерами нашего итеративного подхода являются ограничение доступа для пользователей старше 18 лет, ограничение использования изображений/загрузок лиц и более консервативные пороги модерации для запросов и загрузки несовершеннолетних на момент запуска. Мы хотим продолжать изучать, как люди используют Sora, и итеративно совершенствовать систему, чтобы найти оптимальный баланс между безопасностью и максимальным творческим потенциалом для наших пользователей.
Внешняя «красная команда»
Компания OpenAI сотрудничала с внешними экспертами по тестированию (red teaming), расположенными в девяти разных странах, для тестирования Sora, выявления слабых мест в мерах по обеспечению безопасности и предоставления обратной связи о рисках, связанных с новыми возможностями продукта Sora. Эксперты по тестированию имели доступ к продукту Sora с различными итерациями мер по обеспечению безопасности и зрелости системы, начиная с сентября и до декабря 2024 года, протестировав более 15 000 поколений. Эта работа по тестированию основывается на исследованиях начала 2024 года, когда тестировалась модель Sora без мер по обеспечению безопасности в производственной среде.
Специалисты «красной команды» исследовали потенциальные риски, связанные с моделью Sora и инструментами продукта, а также тестировали разрабатываемые и совершенствуемые меры по обеспечению безопасности. Эти кампании по проверке «красной команды» охватывали различные типы нарушающего и запрещенного контента (сексуальный и эротический контент, насилие и жестокость, членовредительство, незаконный контент, дезинформация и т. д.), тактику противодействия (как подсказки, так и использование инструментов/функций) для обхода мер безопасности, а также способы использования этих инструментов для постепенного снижения эффективности средств модерации и защиты. Специалисты «красной команды» также предоставили отзывы о своем восприятии Sora в таких областях, как предвзятость и общая производительность.
Мы исследовали генерацию видеоконтента из текста, используя как простые подсказки, так и тактику враждебного воздействия, во всех упомянутых выше категориях контента. Возможность загрузки медиафайлов была протестирована на большом количестве изображений и видео, включая изображения и видео публичных лиц, а также в широком спектре категорий контента, чтобы проверить возможность генерации контента, нарушающего авторские права. Мы также протестировали различные способы использования и комбинации инструментов модификации (раскадровки, перемонтаж, ремикс и смешивание), чтобы оценить их полезность для генерации запрещенного контента.
Специалисты по тестированию на проникновение выявили важные закономерности как в отношении конкретных типов запрещенного контента, так и в отношении общих методов противодействия. Например, они обнаружили, что использование текстовых подсказок, содержащих медицинские ситуации или научно-фантастические/фэнтезийные сюжеты, ослабляло защиту от создания эротического и сексуального контента до тех пор, пока не были разработаны дополнительные меры противодействия. Специалисты использовали методы противодействия для обхода элементов системы безопасности, включая двусмысленные подсказки и использование метафор для усиления возможностей модели в области логического вывода. В ходе многочисленных попыток им удавалось выявлять тенденции в подсказках и словах, которые активировали бы средства защиты, и тестировать различные формулировки и слова для обхода отказов. В конечном итоге специалисты выбирали наиболее проблемные варианты для использования в качестве исходного материала для дальнейшей разработки контента, нарушающего правила, который невозможно было создать с помощью методов, основанных на одной подсказке. Методы взлома системы иногда оказывались эффективными для ослабления политики безопасности, что позволяло нам также совершенствовать эти средства защиты.
Специалисты по тестированию также проверили загрузку медиафайлов и инструменты Sora (раскадровки, перемонтаж, ремикс и смешивание) как с общедоступными изображениями, так и с медиафайлами, сгенерированными ИИ. Это выявило пробелы в фильтрации входных и выходных данных, которые необходимо усилить перед выпуском Sora, и помогло улучшить защиту загружаемых медиафайлов, включая изображения людей. Тестирование также выявило необходимость более сильной фильтрации классификаторов для снижения риска модификации не нарушающих авторские права медиафайлов в запрещенный эротический контент, контент, содержащий насилие, или дипфейки.
Обратная связь и данные, полученные от специалистов по тестированию на проникновение, позволили создать дополнительные уровни мер по снижению рисков и улучшить существующие оценки безопасности, которые описаны в разделах «Конкретные области риска и меры по его снижению». Эти усилия позволили дополнительно настроить фильтрацию запросов, списки блокировки и пороговые значения классификатора для обеспечения соответствия модели целям безопасности.
Уроки, извлеченные из опыта раннего доступа художников к искусству.
За последние девять месяцев мы проанализировали отзывы пользователей, полученные по более чем 500 000 запросам от более чем 300 пользователей из более чем 60 стран. Эти данные позволили улучшить поведение моделей и их соответствие протоколам безопасности. Например, отзывы художников помогли нам понять ограничения, которые видимый водяной знак накладывает на их рабочие процессы, что повлияло на наше решение разрешить платящим пользователям загружать видеофайлы без видимого водяного знака, сохраняя при этом данные C2PA.
Эта программа раннего доступа также показала нам, что если Sora задумана как расширенный инструмент для повествования и творческого самовыражения, нам потребуется предоставить художникам большую гибкость в некоторых деликатных областях, которые мы бы рассматривали иначе в универсальном инструменте, таком как ChatGPT. Мы ожидаем, что художники, независимые кинематографисты, студии и другие организации индустрии развлечений будут использовать Sora как важную часть своих процессов разработки. В то же время, выявление как позитивных вариантов использования, так и потенциальных случаев злоупотребления позволило нам определить области, где необходимы более строгие меры на уровне продукта для снижения риска причинения вреда или злоупотребления.
Оценки
Мы разработали внутренние системы оценки, направленные на ключевые области, включая обнаженность, вводящий в заблуждение контент, связанный с выборами, членовредительство и насилие. Эти оценки были призваны помочь в совершенствовании мер по смягчению последствий и в определении пороговых значений модерации. Система оценки сочетает в себе входные данные, передаваемые модели генерации видео, с входными и выходными классификаторами, применяемыми либо к преобразованным данным, либо к итоговым видеороликам.
Входные данные для этих оценок были получены из трех основных источников: данные, собранные на ранней стадии альфа-тестирования (как описано в разделе 3.2), примеры столкновений, предоставленные тестировщиками «красной команды» (упомянутые в разделе 3.1), и синтетические данные, сгенерированные с помощью GPT-4. Данные альфа-тестирования позволили получить представление о реальных сценариях использования, вклад тестировщиков «красной команды» помог выявить контент, содержащий столкновения и нестандартные ситуации, а синтетические данные позволили расширить наборы данных для оценки в таких областях, как непреднамеренный контент, содержащий некорректные данные, где примеры, встречающиеся в естественных условиях, встречаются редко.
Готовность
Система оценки готовности предназначена для оценки того, создают ли возможности передовых моделей значительные риски в четырех отслеживаемых категориях: убеждение, кибербезопасность, ХБРЯ (химическое, биологическое, радиологическое и ядерное оружие) и автономность модели. У нас нет доказательств того, что Sora представляет какой-либо значительный риск в отношении кибербезопасности, ХБРЯ или автономности модели. Эти риски тесно связаны с моделями, которые взаимодействуют с компьютерными системами, научными знаниями или автономным принятием решений, что в настоящее время выходит за рамки возможностей Sora как инструмента для генерации видео.
Возможности Sora по генерации видео могут представлять потенциальный риск, связанный с убеждением, например, риск выдачи себя за другое лицо, дезинформации или социальной инженерии. Для решения этих рисков мы разработали комплекс мер, описанных в разделах ниже. Эти меры включают в себя способы предотвращения создания изображений, похожих на известных публичных деятелей. Кроме того, учитывая, что контекст и знание того, является ли видео реальным или сгенерированным ИИ, могут играть ключевую роль в определении убедительности сгенерированного видео, мы сосредоточились на создании многоуровневого подхода к отслеживанию происхождения, включая метаданные, водяные знаки и идентификационные отпечатки.
Комплекс мер по смягчению последствий Sora
В дополнение к конкретным рискам и мерам по их смягчению, указанным ниже, решения, принятые в рамках обучения персонала Sora, проектирования продукта и политики компании, помогают в целом снизить риск возникновения вредных или нежелательных результатов. Их можно условно разделить на технические меры по смягчению рисков на системном и модельном уровнях, а также на политику продукта и обучение пользователей.
Системные и модельные меры по смягчению последствий
Ниже мы подробно описываем основные меры безопасности, которые мы применяем перед тем, как пользователь увидит запрошенный им результат:
Модерация текста и изображений с помощью многомодального классификатора модерации.
Наш многомодальный классификатор модерации, лежащий в основе нашего внешнего API модерации, используется для выявления текстовых, графических или видеозапросов, которые могут нарушать наши правила использования, как на входе, так и на выходе. Обнаруженные системой нарушающие правила запросы приведут к отказу. Подробнее о нашем многомодальном API модерации можно узнать здесь . 2
Пользовательская фильтрация LLM
Одним из преимуществ технологии генерации видео является возможность выполнения асинхронных проверок модерации без увеличения задержки в общем пользовательском опыте. Поскольку генерация видео по своей природе занимает несколько секунд, это время можно использовать для проведения целенаправленных проверок модерации. Мы адаптировали наш собственный GPT для достижения высокой точности модерации по некоторым конкретным темам, включая выявление контента третьих лиц, а также вводящего в заблуждение контента.
Фильтры являются мультимодальными: в контекст каждого вызова LLM включены как загружаемые изображения/видео, так и текстовые подсказки и выходные данные. Это позволяет нам выявлять недопустимые комбинации изображений и текста.
Классификаторы выходных изображений
Для прямой защиты от потенциально опасного контента в выходных данных Sora использует классификаторы, включая специализированные фильтры для контента, не предназначенного для просмотра несовершеннолетними, контента с участием несовершеннолетних, насилия и потенциального неправомерного использования изображений. Sora может блокировать видео до того, как они будут отправлены пользователю, если эти классификаторы активированы.
Списки заблокированных пользователей
Мы поддерживаем текстовые списки блокировки по различным категориям, опираясь на результаты нашей предыдущей работы над DALL·E 2 и DALL·E 3, проактивное выявление рисков и результаты, полученные от первых пользователей.
Политика в отношении продукции
В дополнение к мерам защиты, которые мы внедрили в модель и систему для предотвращения создания контента, нарушающего правила, мы также предпринимаем дополнительные шаги для снижения риска неправомерного использования. В настоящее время Sora доступна только пользователям старше 18 лет, и мы применяем фильтры модерации к контенту, отображаемому в лентах «Исследовать» и «Рекомендуемые».
Мы также четко доносим руководящие принципы политики посредством встроенного в продукт и общедоступного обучения по следующим темам:
- Использование чужого изображения без его разрешения, а также запрет на изображение реальных несовершеннолетних;
- Создание незаконного контента или контента, нарушающего права интеллектуальной собственности;
- Создание откровенного и вредоносного контента, такого как интимные изображения, полученные без согласия, контент, используемый для запугивания, преследования или клеветы, или контент, предназначенный для пропаганды насилия, ненависти или страданий других людей; и
- Создание и распространение контента, используемого для мошенничества, обмана или введения в заблуждение других лиц.
Некоторые из этих форм злоупотребления устраняются с помощью наших моделей и системных мер по их предотвращению, но другие носят более контекстуальный характер — сцена протеста может быть использована для законных творческих целей, но та же самая сцена, представленная как реальное текущее событие, может быть распространена как дезинформация, если она сопровождается другими утверждениями.
Sora создана для того, чтобы дать людям возможность выражать широкий спектр творческих идей и взглядов. Предотвращать все формы контента, создающего проблемы в контексте, нецелесообразно и нецелесообразно.
Мы предоставляем пользователям возможность сообщать о видеороликах Sora, которые, по их мнению, могут нарушать наши правила, используя автоматизированные средства и ручную проверку для активного мониторинга моделей использования. Мы разработали механизмы принудительного удаления видеороликов, нарушающих правила, и наказания пользователей. В случае нарушения пользователями наших правил мы уведомим их и предоставим возможность высказать свое мнение о том, что, по их мнению, является справедливым. Мы намерены отслеживать эффективность этих мер и совершенствовать их со временем.
Конкретные области риска и меры по их смягчению
Помимо общих мер безопасности, упомянутых выше, предварительные испытания и оценка помогли выявить несколько областей, требующих особого внимания с точки зрения безопасности.
Безопасность детей
Компания OpenAI твердо привержена решению проблемы 3. Мы уделяем первостепенное внимание предотвращению, выявлению и сообщению о контенте, содержащем материалы о сексуальном насилии над детьми (CSAM ), во всех наших продуктах, включая Sora. Усилия OpenAI в области безопасности детей включают ответственный подход к выбору наборов данных для защиты их от CSAM, сотрудничество с Национальным центром по розыску пропавших и эксплуатируемых детей (NCMEC) для предотвращения сексуального насилия над детьми и защиты детей, проведение проверок на наличие CSAM в соответствии с рекомендациями Thorn и с соблюдением правовых ограничений, а также тщательное сканирование на наличие CSAM на всех входных и выходных данных. Это включает сканирование как сторонних, так и сторонних пользователей (API и Enterprise), если только клиенты не соответствуют строгим критериям для удаления сканирования на наличие CSAM. Для предотвращения генерации CSAM мы создали надежный комплекс мер безопасности, используя системные средства защиты, применяемые в других наших продуктах, таких как ChatGPT и DALL·E 4 , а также некоторые дополнительные рычаги, разработанные специально для Sora.
Входные классификаторы
В целях обеспечения безопасности детей мы используем 3 различных метода защиты от искажения входных данных для текста, изображений и видео:
- Для всех загружаемых изображений и видео мы интегрируемся с Safer, разработанным компанией Thorn, для обнаружения совпадений с известным контентом CSAM. Подтвержденные совпадения отклоняются и передаются в NCMEC. Кроме того, мы используем классификатор CSAM от Thorn для идентификации потенциально нового, нехешированного контента CSAM.
- Мы используем многомодальный классификатор модерации для обнаружения и модерации любого контента сексуального характера с участием несовершеннолетних, представленного в текстовом, графическом и видеоформате.
- Для Sora мы разработали классификатор для анализа текста и изображений, позволяющий предсказать, изображен ли на изображении человек младше 18 лет или же сопроводительная подпись относится к несовершеннолетнему. Мы отклоняем запросы на преобразование изображений в видео, содержащие изображения лиц младше 18 лет. Если текстовое видео определяется как содержащее контент младше 18 лет, мы применяем гораздо более строгие критерии модерации в отношении контента сексуального характера, насилия или членовредительства.
Ниже представлена наша оценка классификатора изображений лиц младше 18 лет. Мы оцениваем наш классификатор на предмет отклонения реалистичных изображений лиц младше 18 лет на наборе данных, содержащем около 5000 изображений в категориях [ребенок | взрослый] и [реалистичные | вымышленные]. Наша политика заключается в отклонении реалистичных изображений детей, но разрешении вымышленных изображений, включая анимационные, мультипликационные или эскизные, при условии, что они не носят сексуального характера. Мы придерживаемся осторожного подхода к контенту с участием несовершеннолетних и будем продолжать оценивать наш подход по мере получения новых знаний в процессе использования продукта и поиска правильного баланса между возможностью творческого самовыражения и безопасностью.
В настоящее время наши классификаторы обладают высокой точностью, но иногда могут ошибочно помечать изображения взрослых или нереалистичные изображения детей. Кроме того, мы признаем, что исследования и существующая литература указывают на потенциальную возможность проявления расовых предубеждений в моделях прогнозирования возраста. Например, эти модели могут систематически занижать возраст людей из определенных расовых групп. 5 В ближайшие месяцы мы стремимся повысить эффективность нашего классификатора, минимизировать ложные срабатывания и углубить наше понимание потенциальных предубеждений.
Ожидаемый результат | n_samples | count (is_child) | count (not_child) | Оцененные показатели | |
Реалистичный ребенок | Классифицируйте изображения как «является дочерним». | 1589 | 1555 | 34 | Точность: 97,86% |
Реалистичный взрослый | Классифицируйте изображения как «не детские». | 1370 | 36 | 1334 | Точность: 99,28% |
Вымышленный взрослый | Классифицировать изображения как «не детские» | 965 | 7 | 958 | Точность: 97,37% |
Вымышленный ребёнок | Классифицировать изображения как «не детские» | 1050 | 323 | 727 | Точность: 69,24% |
Общий | 4974 | 1921 | 3053 | Точность: 80,95% Полнота: 97,86% |
Примечание: точность рассчитывается как процент классификаций is_child, которые соответствуют реалистичным изображениям детей, а полнота рассчитывается как процент реалистичных изображений детей, которые классифицируются как is_child.
Выход
Как упоминалось выше, как только мы обнаруживаем упоминание несовершеннолетних в текстовом вводе с помощью нашего классификатора «до 18 лет», мы применяем строгие пороговые значения для модерации контента сексуального характера, насилия или членовредительства в выходных данных. Ниже приведены два классификатора выходных данных, которые мы используем для достижения этой цели:
- Многомодальный классификатор модерации, сканирующий видеопоток на наличие небезопасных файлов, отклоняет запросы, которые могут быть особенно конфиденциальными.
- Мы также используем наш существующий классификатор изображений DALL·E для выявления нарушений, связанных с безопасностью детей.
Наши классификаторы выходных данных сканируют 2 кадра в секунду, и при определении видео как небезопасного мы блокируем любой вывод.
В дополнение к нашим классификаторам и автоматической модерации, мы будем использовать проверку людьми в качестве дополнительного уровня защиты от потенциальных нарушений, связанных с безопасностью детей.
Политика в отношении продукции
Наши правила запрещают использование Sora для создания контента сексуального характера с участием несовершеннолетних. Нарушение наших правил безопасности детей может привести к удалению контента и блокировке пользователя.
Обнаженность и контент с элементами сексуального подтекста
Одна из новых областей риска, связанных с возможностями генерации видео с помощью ИИ, — это потенциальное создание контента, не предназначенного для просмотра на работе (NSFW) или не соответствующего действительности (NCII). Подобно подходу DALL·E, Sora использует многоуровневую стратегию модерации для блокировки контента откровенного характера. Это включает в себя преобразование подсказок, классификаторы выходных изображений и списки блокировки, которые в совокупности ограничивают контент с двусмысленным содержанием, особенно для контента, соответствующего возрасту. Пороговые значения для наших классификаторов более строгие для загрузки изображений, чем для текстовых подсказок.
Видеоролики, отображаемые в разделе «Исследовать», дополнительно фильтруются с помощью повышенных пороговых значений, чтобы обеспечить просмотр, подходящий для широкой аудитории.
Ниже представлены результаты наших оценок в отношении обнаженного тела и контента с сексуальным подтекстом, направленные на оценку эффективности многоуровневой системы смягчения последствий на всех этапах обработки данных. На основе полученных результатов мы пересмотрели пороговые значения и применили более строгую модерацию к изображениям, содержащим людей.
Категория | Точность* (на входе) | Точность* (на выходе, т.е. от начала до конца) |
Обнаженность и контент с элементами сексуального подтекста | 97,25% | 97,59% |
Объяснение оценки:
N = общее количество образцов, нарушающих правила (примерно 200 на категорию)
I = общее количество образцов, нарушающих правила и прошедших проверку модерации входных данных.
O = общее количество образцов, нарушивших правила и прошедших проверку модерации выходных данных.
Точность на входе = (N — I) / N
Точность на выходе (от начала до конца) = (N — O) / N
Политика в отношении продукции
Наши правила запрещают использование Sora для создания откровенного сексуального контента, включая интимные изображения, полученные без согласия. Нарушение этих правил может привести к удалению контента и наложению санкций на пользователя.
Обманчивый контент
Злоупотребление сходством и вредоносные дипфейки
Функция модерации Sora для запросов, основанных на изображении людей, предназначена для выявления потенциально опасного контента, созданного с помощью технологии дипфейк, с целью тщательной проверки видеороликов с участием узнаваемых людей. Фильтр «Злоупотребление изображением» дополнительно выявляет запросы, которые пытаются изменить или изобразить людей потенциально опасным или вводящим в заблуждение образом. Общие преобразования запросов Sora дополнительно снижают риск того, что Sora создаст нежелательное изображение частного лица на основе запроса, содержащего чье-либо имя.
Обманчивый контент
Классификаторы входных и выходных данных Sora предназначены для предотвращения создания вводящего в заблуждение контента, связанного с выборами, который изображает мошенническую, неэтичную или иную незаконную деятельность. Метрики оценки Sora включают классификаторы для выявления стилевых или фильтрующих методов, которые могут привести к созданию вводящих в заблуждение видеороликов в контексте выборов, тем самым снижая риск злоупотребления в реальном мире.
Ниже представлены результаты оценки нашего фильтра LLM для выявления вводящего в заблуждение контента, связанного с выборами, который помогает обнаруживать случаи, когда может иметь место намерение создать запрещенный контент в различных форматах (например, текст и видео). Наша система также сканирует видео с частотой 1 кадр в секунду для оценки возможных нарушений.
Классификатор | Отзывать | Точность | Результат при пометке |
Вводящий в заблуждение контент, связанный с выборами | 98,23% | 88,80% | Блок генерации выходных данных |
N=~500, на основе подсказок с использованием синтетических данных.
Инвестиции в происхождение
Учитывая, что многие риски, связанные с Sora, такие как вредоносный контент, созданный с помощью дипфейков, в значительной степени зависят от контекста, мы уделили приоритетное внимание совершенствованию наших инструментов проверки происхождения контента. Мы понимаем, что единого решения для проверки происхождения не существует, но стремимся улучшить экосистему проверки происхождения и помочь обеспечить контекст и прозрачность контента, созданного с помощью Sora.
В рамках программы обеспечения безопасности происхождения продукции, доступной для широкой публики, будут включены следующие инструменты:
- Метаданные C2PA по всем активам (подтвержденное происхождение, отраслевой стандарт)
- Анимированные видимые водяные знаки Sora по умолчанию (прозрачность для зрителей, которые видят этот «ИИ»)
- Внутренний инструмент обратного поиска видео, помогающий членам команды OpenAI по разведке и расследованию с высокой степенью уверенности определять, создан ли контент Сорой.
Политика в отношении продукции
Наши правила запрещают использование Sora для мошенничества, обмана или введения в заблуждение других лиц, в том числе путем создания и распространения дезинформации. Они также запрещают использование изображения другого человека без его разрешения. Нарушение этих правил может привести к удалению контента и наложению санкций на пользователя.
Стили исполнителей
Когда пользователь использует имя ныне живущего художника в подсказке, модель может сгенерировать видео, которое в некоторой степени напоминает стиль работ этого художника. В творчестве существует давняя традиция заимствования стилей других художников, но мы понимаем, что у некоторых создателей могут быть опасения. В этой версии Sora мы решили придерживаться консервативного подхода, поскольку изучаем, как Sora используется творческим сообществом. Чтобы решить эту проблему, мы добавили возможность переписывания подсказок, которая срабатывает, когда пользователь пытается сгенерировать видео в стиле ныне живущего художника.
Как и в других наших продуктах, редактор Sora использует LLM для переписывания предоставленного текста, чтобы сделать подсказки Sora более эффективными. Этот процесс способствует соблюдению наших рекомендаций, включая удаление имен публичных личностей, привязку людей к определенным характеристикам и описание брендированных объектов в обобщенном виде. Мы поддерживаем текстовые списки блокировки по различным категориям, основываясь на нашей предыдущей работе над DALL·E 2 и DALL·E 3, проактивном выявлении рисков, а также результатах работы специалистов по тестированию и первых пользователей.
Дальнейшая работа
OpenAI использует итеративную стратегию развертывания, чтобы обеспечить ответственное и эффективное внедрение своих продуктов. Этот подход сочетает поэтапное развертывание, постоянное тестирование и непрерывный мониторинг с обратной связью от пользователей и данными из реальных условий для совершенствования и улучшения наших мер по повышению производительности и безопасности с течением времени. Ниже представлен ряд работ, которые мы планируем выполнить в рамках итеративного развертывания Sora.
Пилот-похожий
Возможность создавать видео, используя загруженное фото или видео реального человека в качестве «затравки», представляет собой потенциальный источник злоупотреблений, и мы применяем к этому вопросу поэтапный подход, чтобы изучить первые примеры использования. Первые отзывы от художников показывают, что это мощный творческий инструмент, который они ценят, но, учитывая потенциал злоупотреблений, мы изначально не предоставляем его всем пользователям. Вместо этого, в соответствии с нашей практикой итеративного внедрения, возможность загрузки изображений или видео людей будет предоставлена лишь части пользователей, и мы будем осуществлять активный и тщательный мониторинг, чтобы понять ценность этого инструмента для сообщества Sora и скорректировать наш подход к безопасности по мере получения новых знаний. Загрузка изображений несовершеннолетних во время этого тестирования будет запрещена.
Инициативы по обеспечению происхождения и прозрачности
В будущих версиях Sora мы продолжим укреплять отслеживаемость за счет исследований инструментов обратного встраивания и дальнейшего внедрения мер по обеспечению прозрачности, таких как C2PA. Мы рады изучить потенциальные возможности партнерства с НПО и исследовательскими организациями для развития и улучшения экосистемы отслеживания происхождения, а также протестировать наш внутренний инструмент обратного копирования изображений для Sora.
Расширение представленности различных групп населения в наших результатах деятельности.
Мы стремимся к снижению потенциальных искажений результатов за счет оперативного внесения корректировок, обратной связи и постоянного выявления эффективных мер по их смягчению, признавая, что чрезмерные корректировки могут быть столь же вредными. Мы признаем наличие таких проблем, как предвзятость в отношении образа тела и демографического представительства, и будем продолжать совершенствовать наш подход для обеспечения сбалансированных и инклюзивных результатов.
Дальнейшее соответствие требованиям безопасности, политики и этических норм.
OpenAI планирует проводить постоянную оценку Sora и прилагать усилия для дальнейшего улучшения соответствия Sora политике и стандартам безопасности OpenAI. Дополнительные улучшения в таких областях, как безопасность использования изображений и защита от вводящего в заблуждение контента, планируются с учетом постоянно совершенствующихся передовых методов и отзывов пользователей.
Благодарности
Благодарим все внутренние команды OpenAI, включая отделы коммуникаций, проектирования коммуникаций, глобальных вопросов, обеспечения целостности данных, разведки и расследований, юридический отдел, отдел продуктовой политики, систем безопасности и пользовательских операций, чья поддержка сыграла решающую роль в разработке и внедрении мер безопасности Sora, а также в их вкладе в создание этой системной карты.
Мы благодарны нашей группе альфа-художников и нашим экспертам из команды «красных», которые предоставили обратную связь, помогли протестировать наши модели на ранних этапах разработки и внесли свой вклад в оценку рисков. Участие в процессе тестирования не означает одобрения планов развертывания OpenAI или политики OpenAI.
- Лица, проводившие тестирование на проникновение (в алфавитном порядке): Александра Гарсиа Перес, Арджун Сингх Пури, Кэролайн Фридман Леви, Дэни Мадрид-Моралес, Эмили Линелл Эдвардс, Грант Брэйлсфорд, Герман Вассерман, Хавьер Гарсиа Арредондо, Кейт Турецки, Келли Бэр, Мэтт Гро, Максимилиан Мюллер, Наоми Харт, Нэйтан Хит, Патрик Коги, Пер Викман Сван, Рафаэль Гонсалес-Васкес, Сара Кингсли, Шелби Гроссман, Винсент Нестлер
- Организации, занимающиеся тестированием на проникновение (Red Teaming): ScaleAI
Источник: openai.com






















