Инициатива Amplify: локализованные данные для глобализированного ИИ.

06.03.2026 ideipro.ru

NOVOSTI

Исследовательское подразделение Google представляет инициативу Amplify — создание глобальной, открытой и основанной на сообществе платформы данных для масштабирования сбора данных на различных языках.

Быстрые ссылки

Бумага
Набор данных
Панель управления
Делиться
- Скопировать ссылку ×

Модели генеративного искусственного интеллекта способны трансформировать различные аспекты жизни во всем мире, от образования до инноваций, однако их возможности не соответствуют широте используемых обучающих данных, которые ограничены с точки зрения языков, тем и географических регионов.

Для того чтобы ИИ мог удовлетворять важнейшие местные потребности — такие как доступная информация о здоровье, культурно-релевантные учебные программы и финансовые услуги — нам необходимы разнообразные и высококачественные данные. Эти данные должны отражать людей, их потребности и ценности со всего мира, на их родных языках. Способ сбора этих данных также имеет значение. Будущее сбора данных должно быть уважительным к местным условиям, ориентированным на сообщество и ответственным.

Для достижения этих целей мы представляем инициативу Amplify — проект, направленный на создание открытой, основанной на сообществе платформы данных, способной масштабировать сбор и проверку новых данных по всему миру. Мы описываем подход Amplify к совместному созданию наборов данных с экспертами в предметной области на примере пилотного проекта, проведенного в странах Африки к югу от Сахары. В результате этого исследования, реализованного с помощью приложения для Android, был создан аннотированный набор данных из 8091 состязательного запроса на семи языках, разработанный совместно со 155 экспертами. Более того, Amplify стремится масштабировать эту методологию в Бразилии и Индии, а также выявить инновационные методы сбора знаний, которые в настоящее время недоступны в интернете.

Инициатива «Усиление»

Инициатива Amplify направлена на создание структурированных, учитывающих культурные особенности наборов данных с помощью приложения, разработанного совместно с местными сообществами. В общих чертах, эта платформа позволяет людям:

Совместное создание структурированных наборов данных с участием общественности, отражающих потребности по всему миру. Основываясь на текущем пилотном проекте в странах Африки к югу от Сахары, инициатива Amplify позволяет сообществу исследователей в каждом регионе определить потребности в данных для ответственного развития ИИ и решения региональных проблем . Эти потребности в данных будут передаваться между участниками и исследователями, чтобы они могли согласовывать свои действия для создания высококачественных наборов данных.
Получите доступ к высококачественным многоязычным наборам данных для инноваций в области ИИ. Разработчики и исследователи ИИ могут использовать наборы данных, созданные с помощью Amplify, для разработки методов, моделей и инструментов. Доступ к открытым данным позволит исследователям из стран Глобального Юга использовать ИИ в интересах своих сообществ и решать насущные социальные проблемы. Данные подходят для тонкой настройки и оценки. Например, это может включать в себя набор данных для сравнительной оценки дезинформации на языке суахили или набор данных для тонкой настройки, упрощающий финансовую терминологию для людей с низким уровнем финансовой грамотности в Индии.
Получайте признание и награды за свой ценный вклад в развитие ИИ. Платформа предоставляет вознаграждения и признание за участие, включая указание авторства данных, профессиональные сертификаты и признание исследований. В будущем авторы данных смогут отслеживать и видеть, как их вклад влияет на инновации в области ИИ.

Пилотный проект в странах Африки к югу от Сахары

Для реализации этой инициативы исследовательский центр Google в партнерстве с лабораторией искусственного интеллекта Университета Макерере в Уганде запустил пилотную программу по совместной разработке высококачественных наборов данных с экспертами из стран Африки к югу от Сахары. Исследователи из Университета Макерере уже были готовы к участию в такой программе благодаря продолжающемуся сотрудничеству с Google, в рамках которого изучались потенциальные риски, связанные с программами обучения на основе знаний в Африке.

Вместе мы:

Разработана методология сбора и проверки данных по важным областям (например, здравоохранение, образование, финансы) с привлечением соответствующих экспертов (т. е. людей, обладающих профессиональными или академическими знаниями в конкретной области, таких как медицинские работники и учителя).
Определены вознаграждения за создание данных (например, компенсация, сертификаты).
Создана экосистема с использованием приложения для сбора данных.
Обучено и введено в эксплуатацию 259 экспертов в Гане, Кении, Малави, Нигерии и Уганде с использованием очных семинаров и онлайн-обучения в приложении.
Было собрано 8091 аннотированный состязательный запрос на семи языках, соавторами которого выступили 155 экспертов из различных отраслей.

Как это работает

Перед началом сбора данных команда — Google Research и партнерские организации — определяет, какие конкретные области наиболее важны для региона. К участию в процессе сбора данных приглашаются эксперты, обладающие профессиональным или академическим опытом в этих областях. Такой целенаправленный подход является первым шагом к сбору данных от разнообразной группы людей, способных выявить наиболее актуальные местные проблемы.

Затем члены команды и местные партнеры (руководители исследований в конкретных странах) определяют руководящие принципы, которые необходимо учитывать в процессе создания данных. Команда также разрабатывает учебные материалы и проводит практические семинары для экспертов на их языках, обязательно включая обучение ответственным методам работы, потенциальным проблемам предвзятости и методам аннотирования.

Для масштабирования обучения и сбора данных команда разработала приложение для Android, обеспечивающее конфиденциальность, которое эксперты могут использовать перед созданием данных. Обучение является необходимым шагом для определения целей сбора данных и выявления локально значимых проблем, связанных с ключевыми темами генеративного ИИ, такими как стереотипы, специализированные рекомендации и дезинформация.

Представлен интерфейс Android-приложения, содержащего обучающие материалы по вопросам ответственного использования ИИ и построения запросов.

С помощью этого приложения эксперты создают и аннотируют данные. Приложение предоставляет автоматическую обратную связь, чтобы убедиться, что запросы соответствуют целям сбора данных и не являются дубликатами или семантически похожими на другие запросы в наборе данных. Эксперты аннотируют каждый запрос, указывая тематические и предметно-специфические темы.

Эксперты видят темы аннотаций, специфичные для их области знаний. Приложение позволяет участникам легко получать вознаграждения за свой вклад. Оно локализовано для каждой страны-участницы, включая адаптированные системы признания и вознаграждения по регионам.

Схема процесса создания запроса в приложении с примером локализованного запроса и предлагаемыми аннотациями.

После завершения сбора данных региональные партнеры и руководители исследовательских проектов в разных странах, обладающие языковой и региональной экспертизой, переводят, оценивают и проверяют запросы на предмет их актуальности для местного контекста, согласованности, беглости речи и охвата. Команда также использует автоматизированные подходы с применением искусственного интеллекта для перевода и проверки данных перед окончательной обработкой.

Пилотные данные

В рамках пилотного проекта лаборатория искусственного интеллекта Университета Макерере и исследовательский центр Google собрали 8091 аннотированный состязательный запрос на английском языке и шести африканских языках (например, пиджин-английский, луганда, суахили, чичева). Запросы носят состязательный характер и с высокой вероятностью могут привести к небезопасным ответам от модели, использующей языки с низким уровнем владения языком, что служит средством тестирования и предотвращения потенциального вреда. Этот набор данных, в свою очередь, может быть использован для оценки моделей на предмет их безопасности и культурной значимости в контексте этих языков. Набор данных является открытым и доступен для изучения.

Эксперты из семи деликатных областей (например, культура и религия, занятость) аннотировали эти запросы, используя десять тем в рамках своей области знаний (например, «коррупция и прозрачность» для сферы политики и государственного управления), пять тем генеративного ИИ (например, общественный интерес, дезинформация) и 13 деликатных характеристик (например, возраст, племя), имеющих отношение к африканскому контексту.

Наиболее распространенными областями были здравоохранение (2076) и образование (1469), а наиболее популярными темами — хронические заболевания (373) и оценка и измерение в образовании (245) соответственно. Почти 80 процентов запросов содержали контекстную информацию о дезинформации, стереотипах и контенте, имеющем отношение к общественному благополучию, таком как здравоохранение или законодательство. Большинство запросов касались социальных групп, принадлежащих к определенному полу (например, «девочки Чибока»), возрасту (например, «новорожденные»), религии или убеждениям (например, «традиционные африканские религии») и уровню образования (например, «необразованные»).

Распределение количества запросов по тематическим областям и доменам по всем странам.

Набор данных отражает уникальные проблемы, концепции и социальные группы, характерные для каждой страны. Это включает в себя враждебные запросы, основанные на местном контексте, заблуждениях и ошибках. Например, один из запросов отражает опасения по поводу употребления женщинами в Уганде определенного вида глины во время беременности, что является распространенной культурной практикой, представляющей потенциальный риск для здоровья. Модели ИИ могут быть усовершенствованы за счет использования разнообразных культурных нюансов, обнаруженных в наборе данных, что позволит им выявлять проблемы и адекватно реагировать на них со стороны широкого круга населения.

В будущем мы сможем усилить нашу инициативу.

Укрепление доверия с сообществами по всему миру является центральным элементом подхода Amplify Initiative. Для достижения этой цели Amplify расширяет пилотный проект в Латинской Америке, Южной и Юго-Восточной Азии. Команда уже сотрудничает с Федеральным университетом Минас-Жерайс в Бразилии и Индийским технологическим институтом Харагпур в Индии.

Совместно с партнерами следующим шагом станет сбор и проверка данных по важным локальным проблемам, которые невозможно выявить с помощью модели ИИ. Приложение может позволить экспертам из этих регионов задавать Gemini вопросы по критически важным проблемам на их языках и в их странах, а также модифицировать полученные ответы, чтобы учесть контекстную информацию, отсутствующую в существующих моделях ИИ. Благодаря сотрудничеству экспертов в различных областях с Gemini, Amplify сможет выявлять и восполнять потенциальные пробелы в данных, касающиеся важных глобальных проблем: от выбора сельскохозяйственных культур для фермеров в Бразилии до ценности продолжения обучения в школе для девочек в Индии.

воспроизведение видео без звука зацикливание пауза видео без звука зацикливание включение звука видео выключение звука

Демонстрация новой функции с использованием Gemini в веб-приложении Amplify Initiative.

Присоединяйтесь к инициативе Amplify!

Инициатива Amplify стремится расширить возможности сообществ по всему миру и предоставить им возможность возглавить следующую волну инноваций в области искусственного интеллекта. Если вы заинтересованы узнать больше о проекте или принять участие в нем в вашей стране, пожалуйста, выразите свою заинтересованность здесь.

Благодарности

Этот проект стал возможен благодаря многолетнему партнерству и постоянному руководству Джойс Накатумба-Набенде и Рехемы Багумы из Университета Макерере. Эндрю Катумба, Чодрин Мутеби, Джаген Марвин, Эрик Питер Вайрагала, Мугизи Брюс, Питер Окетта, Лоуренс Ндеру, Обичи Обиаджунва, Абигейл Оппонг и Майкл Зимба внесли неоценимый вклад в развитие существующей экосистемы платформы. Этот проект не был бы успешным без решающих усилий и руководства Эрин ван Лиемт, Амбер Эбинама, Тиффани Ши, Адама Форбса, Карлы Барриос Рамос, Мадхуримы Маджи, Айшварии Вермы, Чару Калиа и Александра Занони из Google Research. Мы благодарны за постоянную поддержку и руководство Джамилы Смит-Лоуд, Тиффани Денг, Сашки Мойсилович и Мариан Кроак. В заключение мы выражаем благодарность авторам данных, указанным в статье Amplify Initiative , без которых создание этого набора данных было бы невозможно.

Источник: research.google

Оцените материал:

Оставить комментарий Отменить ответ

Для отправки комментария вам необходимо авторизоваться.

Инициатива Amplify: локализованные данные для глобализированного ИИ.

Быстрые ссылки

Инициатива «Усиление»

Пилотный проект в странах Африки к югу от Сахары

Как это работает

Пилотные данные

В будущем мы сможем усилить нашу инициативу.

Присоединяйтесь к инициативе Amplify!

Благодарности

Оставить комментарий Отменить ответ

🤖 Нельсон AI

Гайды, руководства и полезные статьи

Быстрые ссылки

Инициатива «Усиление»

Пилотный проект в странах Африки к югу от Сахары

Как это работает

Пилотные данные

В будущем мы сможем усилить нашу инициативу.

Присоединяйтесь к инициативе Amplify!

Благодарности

Похожие записи

Похожие записи

Почему зимой энергосистема полагается на ядерные реакторы

Министерство энергетики США при Трампе решило сохранить как минимум одну энергетическую программу эпохи Байдена

Цифровой «дворец памяти» показывает, как локации помогают нам кодировать воспоминания

Оставить комментарий Отменить ответ

Присоединяйтесь и подпишитесь на рассылку самых свежих новостей по Email

🤖 Нельсон AI