
Исследовательское подразделение Google представляет инициативу Amplify — создание глобальной, открытой и основанной на сообществе платформы данных для масштабирования сбора данных на различных языках.
Быстрые ссылки
- Бумага
- Набор данных
- Панель управления
- Делиться
Модели генеративного искусственного интеллекта способны трансформировать различные аспекты жизни во всем мире, от образования до инноваций, однако их возможности не соответствуют широте используемых обучающих данных, которые ограничены с точки зрения языков, тем и географических регионов.
Для того чтобы ИИ мог удовлетворять важнейшие местные потребности — такие как доступная информация о здоровье, культурно-релевантные учебные программы и финансовые услуги — нам необходимы разнообразные и высококачественные данные. Эти данные должны отражать людей, их потребности и ценности со всего мира, на их родных языках. Способ сбора этих данных также имеет значение. Будущее сбора данных должно быть уважительным к местным условиям, ориентированным на сообщество и ответственным.
Для достижения этих целей мы представляем инициативу Amplify — проект, направленный на создание открытой, основанной на сообществе платформы данных, способной масштабировать сбор и проверку новых данных по всему миру. Мы описываем подход Amplify к совместному созданию наборов данных с экспертами в предметной области на примере пилотного проекта, проведенного в странах Африки к югу от Сахары. В результате этого исследования, реализованного с помощью приложения для Android, был создан аннотированный набор данных из 8091 состязательного запроса на семи языках, разработанный совместно со 155 экспертами. Более того, Amplify стремится масштабировать эту методологию в Бразилии и Индии, а также выявить инновационные методы сбора знаний, которые в настоящее время недоступны в интернете.
Инициатива «Усиление»
Инициатива Amplify направлена на создание структурированных, учитывающих культурные особенности наборов данных с помощью приложения, разработанного совместно с местными сообществами. В общих чертах, эта платформа позволяет людям:
- Совместное создание структурированных наборов данных с участием общественности, отражающих потребности по всему миру. Основываясь на текущем пилотном проекте в странах Африки к югу от Сахары, инициатива Amplify позволяет сообществу исследователей в каждом регионе определить потребности в данных для ответственного развития ИИ и решения региональных проблем . Эти потребности в данных будут передаваться между участниками и исследователями, чтобы они могли согласовывать свои действия для создания высококачественных наборов данных.
- Получите доступ к высококачественным многоязычным наборам данных для инноваций в области ИИ. Разработчики и исследователи ИИ могут использовать наборы данных, созданные с помощью Amplify, для разработки методов, моделей и инструментов. Доступ к открытым данным позволит исследователям из стран Глобального Юга использовать ИИ в интересах своих сообществ и решать насущные социальные проблемы. Данные подходят для тонкой настройки и оценки. Например, это может включать в себя набор данных для сравнительной оценки дезинформации на языке суахили или набор данных для тонкой настройки, упрощающий финансовую терминологию для людей с низким уровнем финансовой грамотности в Индии.
- Получайте признание и награды за свой ценный вклад в развитие ИИ. Платформа предоставляет вознаграждения и признание за участие, включая указание авторства данных, профессиональные сертификаты и признание исследований. В будущем авторы данных смогут отслеживать и видеть, как их вклад влияет на инновации в области ИИ.
Пилотный проект в странах Африки к югу от Сахары
Для реализации этой инициативы исследовательский центр Google в партнерстве с лабораторией искусственного интеллекта Университета Макерере в Уганде запустил пилотную программу по совместной разработке высококачественных наборов данных с экспертами из стран Африки к югу от Сахары. Исследователи из Университета Макерере уже были готовы к участию в такой программе благодаря продолжающемуся сотрудничеству с Google, в рамках которого изучались потенциальные риски, связанные с программами обучения на основе знаний в Африке.
Вместе мы:
- Разработана методология сбора и проверки данных по важным областям (например, здравоохранение, образование, финансы) с привлечением соответствующих экспертов (т. е. людей, обладающих профессиональными или академическими знаниями в конкретной области, таких как медицинские работники и учителя).
- Определены вознаграждения за создание данных (например, компенсация, сертификаты).
- Создана экосистема с использованием приложения для сбора данных.
- Обучено и введено в эксплуатацию 259 экспертов в Гане, Кении, Малави, Нигерии и Уганде с использованием очных семинаров и онлайн-обучения в приложении.
- Было собрано 8091 аннотированный состязательный запрос на семи языках, соавторами которого выступили 155 экспертов из различных отраслей.
Как это работает
Перед началом сбора данных команда — Google Research и партнерские организации — определяет, какие конкретные области наиболее важны для региона. К участию в процессе сбора данных приглашаются эксперты, обладающие профессиональным или академическим опытом в этих областях. Такой целенаправленный подход является первым шагом к сбору данных от разнообразной группы людей, способных выявить наиболее актуальные местные проблемы.
Затем члены команды и местные партнеры (руководители исследований в конкретных странах) определяют руководящие принципы, которые необходимо учитывать в процессе создания данных. Команда также разрабатывает учебные материалы и проводит практические семинары для экспертов на их языках, обязательно включая обучение ответственным методам работы, потенциальным проблемам предвзятости и методам аннотирования.
Для масштабирования обучения и сбора данных команда разработала приложение для Android, обеспечивающее конфиденциальность, которое эксперты могут использовать перед созданием данных. Обучение является необходимым шагом для определения целей сбора данных и выявления локально значимых проблем, связанных с ключевыми темами генеративного ИИ, такими как стереотипы, специализированные рекомендации и дезинформация.

Представлен интерфейс Android-приложения, содержащего обучающие материалы по вопросам ответственного использования ИИ и построения запросов.
С помощью этого приложения эксперты создают и аннотируют данные. Приложение предоставляет автоматическую обратную связь, чтобы убедиться, что запросы соответствуют целям сбора данных и не являются дубликатами или семантически похожими на другие запросы в наборе данных. Эксперты аннотируют каждый запрос, указывая тематические и предметно-специфические темы.
Эксперты видят темы аннотаций, специфичные для их области знаний. Приложение позволяет участникам легко получать вознаграждения за свой вклад. Оно локализовано для каждой страны-участницы, включая адаптированные системы признания и вознаграждения по регионам.

Схема процесса создания запроса в приложении с примером локализованного запроса и предлагаемыми аннотациями.
После завершения сбора данных региональные партнеры и руководители исследовательских проектов в разных странах, обладающие языковой и региональной экспертизой, переводят, оценивают и проверяют запросы на предмет их актуальности для местного контекста, согласованности, беглости речи и охвата. Команда также использует автоматизированные подходы с применением искусственного интеллекта для перевода и проверки данных перед окончательной обработкой.
Пилотные данные
В рамках пилотного проекта лаборатория искусственного интеллекта Университета Макерере и исследовательский центр Google собрали 8091 аннотированный состязательный запрос на английском языке и шести африканских языках (например, пиджин-английский, луганда, суахили, чичева). Запросы носят состязательный характер и с высокой вероятностью могут привести к небезопасным ответам от модели, использующей языки с низким уровнем владения языком, что служит средством тестирования и предотвращения потенциального вреда. Этот набор данных, в свою очередь, может быть использован для оценки моделей на предмет их безопасности и культурной значимости в контексте этих языков. Набор данных является открытым и доступен для изучения.
Эксперты из семи деликатных областей (например, культура и религия, занятость) аннотировали эти запросы, используя десять тем в рамках своей области знаний (например, «коррупция и прозрачность» для сферы политики и государственного управления), пять тем генеративного ИИ (например, общественный интерес, дезинформация) и 13 деликатных характеристик (например, возраст, племя), имеющих отношение к африканскому контексту.
Наиболее распространенными областями были здравоохранение (2076) и образование (1469), а наиболее популярными темами — хронические заболевания (373) и оценка и измерение в образовании (245) соответственно. Почти 80 процентов запросов содержали контекстную информацию о дезинформации, стереотипах и контенте, имеющем отношение к общественному благополучию, таком как здравоохранение или законодательство. Большинство запросов касались социальных групп, принадлежащих к определенному полу (например, «девочки Чибока»), возрасту (например, «новорожденные»), религии или убеждениям (например, «традиционные африканские религии») и уровню образования (например, «необразованные»).

Распределение количества запросов по тематическим областям и доменам по всем странам.
Набор данных отражает уникальные проблемы, концепции и социальные группы, характерные для каждой страны. Это включает в себя враждебные запросы, основанные на местном контексте, заблуждениях и ошибках. Например, один из запросов отражает опасения по поводу употребления женщинами в Уганде определенного вида глины во время беременности, что является распространенной культурной практикой, представляющей потенциальный риск для здоровья. Модели ИИ могут быть усовершенствованы за счет использования разнообразных культурных нюансов, обнаруженных в наборе данных, что позволит им выявлять проблемы и адекватно реагировать на них со стороны широкого круга населения.
В будущем мы сможем усилить нашу инициативу.
Укрепление доверия с сообществами по всему миру является центральным элементом подхода Amplify Initiative. Для достижения этой цели Amplify расширяет пилотный проект в Латинской Америке, Южной и Юго-Восточной Азии. Команда уже сотрудничает с Федеральным университетом Минас-Жерайс в Бразилии и Индийским технологическим институтом Харагпур в Индии.
Совместно с партнерами следующим шагом станет сбор и проверка данных по важным локальным проблемам, которые невозможно выявить с помощью модели ИИ. Приложение может позволить экспертам из этих регионов задавать Gemini вопросы по критически важным проблемам на их языках и в их странах, а также модифицировать полученные ответы, чтобы учесть контекстную информацию, отсутствующую в существующих моделях ИИ. Благодаря сотрудничеству экспертов в различных областях с Gemini, Amplify сможет выявлять и восполнять потенциальные пробелы в данных, касающиеся важных глобальных проблем: от выбора сельскохозяйственных культур для фермеров в Бразилии до ценности продолжения обучения в школе для девочек в Индии.
воспроизведение видео без звука зацикливание пауза видео без звука зацикливание включение звука видео выключение звука
Демонстрация новой функции с использованием Gemini в веб-приложении Amplify Initiative.
Присоединяйтесь к инициативе Amplify!
Инициатива Amplify стремится расширить возможности сообществ по всему миру и предоставить им возможность возглавить следующую волну инноваций в области искусственного интеллекта. Если вы заинтересованы узнать больше о проекте или принять участие в нем в вашей стране, пожалуйста, выразите свою заинтересованность здесь.
Благодарности
Этот проект стал возможен благодаря многолетнему партнерству и постоянному руководству Джойс Накатумба-Набенде и Рехемы Багумы из Университета Макерере. Эндрю Катумба, Чодрин Мутеби, Джаген Марвин, Эрик Питер Вайрагала, Мугизи Брюс, Питер Окетта, Лоуренс Ндеру, Обичи Обиаджунва, Абигейл Оппонг и Майкл Зимба внесли неоценимый вклад в развитие существующей экосистемы платформы. Этот проект не был бы успешным без решающих усилий и руководства Эрин ван Лиемт, Амбер Эбинама, Тиффани Ши, Адама Форбса, Карлы Барриос Рамос, Мадхуримы Маджи, Айшварии Вермы, Чару Калиа и Александра Занони из Google Research. Мы благодарны за постоянную поддержку и руководство Джамилы Смит-Лоуд, Тиффани Денг, Сашки Мойсилович и Мариан Кроак. В заключение мы выражаем благодарность авторам данных, указанным в статье Amplify Initiative , без которых создание этого набора данных было бы невозможно.
Источник: research.google





















