Image

Дифференциально приватное машинное обучение в масштабе с использованием JAX-Privacy

e3f93ce1a06d9841511fc93add1999d7

Мы объявляем о выпуске JAX-Privacy 1.0, библиотеки для машинного обучения с дифференциальной приватностью, использующей высокопроизводительную вычислительную библиотеку JAX.

Быстрые ссылки

От персонализированных рекомендаций до научных достижений, модели ИИ помогают улучшать жизнь и преобразовывать отрасли. Однако влияние и точность этих моделей ИИ часто определяются качеством используемых ими данных. Большие, высококачественные наборы данных имеют решающее значение для разработки точных и репрезентативных моделей ИИ, однако их необходимо использовать таким образом, чтобы обеспечить конфиденциальность личных данных.

Вот тут-то и вступают в дело JAX и JAX-Privacy. Представленная в 2020 году, JAX — это высокопроизводительная библиотека для численных вычислений, разработанная для крупномасштабного машинного обучения (ML). Ее основные функции, включая автоматическое дифференцирование, компиляцию «на лету» и бесшовное масштабирование на нескольких ускорителях, делают ее идеальной платформой для эффективного построения и обучения сложных моделей. JAX стала краеугольным камнем для исследователей и инженеров, расширяющих границы искусственного интеллекта. Ее экосистема включает в себя надежный набор специализированных библиотек, в том числе Flax, упрощающий реализацию архитектур нейронных сетей, и Optax, реализующий передовые оптимизаторы.

Созданный на основе JAX, JAX-Privacy представляет собой мощный инструментарий для создания и аудита моделей с дифференциальной приватностью. Он позволяет исследователям и разработчикам быстро и эффективно внедрять алгоритмы с дифференциальной приватностью (DP) для обучения моделей глубокого обучения на больших наборах данных и предоставляет основные инструменты, необходимые для интеграции обучения с приватностью в современные распределенные рабочие процессы обучения. Оригинальная версия JAX-Privacy была представлена в 2022 году, чтобы дать возможность внешним исследователям воспроизвести и проверить некоторые из наших достижений в области обучения с приватностью. С тех пор он превратился в центр, где исследовательские группы Google интегрируют свои новые научные открытия в алгоритмы обучения и аудита с дифференциальной приватностью.

Сегодня мы с гордостью объявляем о выпуске JAX-Privacy 1.0. Интегрируя наши последние достижения в исследованиях и переработанная с учетом модульности, эта новая версия упрощает для исследователей и разработчиков создание конвейеров обучения динамического программирования, сочетающих в себе передовые алгоритмы динамического программирования с масштабируемостью, обеспечиваемой JAX.

Как мы к этому пришли: необходимость JAX-Privacy

На протяжении многих лет исследователи использовали DP в качестве эталонного метода для количественной оценки и ограничения утечки конфиденциальной информации. DP гарантирует, что результат работы алгоритма будет практически одинаковым независимо от того, включен ли в набор данных отдельный человек (или пример).

Хотя теория динамического программирования хорошо разработана, её практическая реализация в крупномасштабном машинном обучении может представлять собой сложную задачу. Наиболее распространённый подход, дифференциально-приватный стохастический градиентный спуск (DP-SGD), требует специализированных процедур пакетной обработки, ограничения градиента для каждого примера и добавления тщательно откалиброванного шума. Этот процесс требует больших вычислительных затрат и может быть сложным для правильной и эффективной реализации, особенно в масштабе современных базовых моделей.

JAXPrivacy2_Обзор

JAX-Privacy позволяет исследователям и разработчикам обучать и дорабатывать базовые модели на закрытых данных, используя передовые алгоритмы дифференциальной конфиденциальности, масштабируемым и эффективным способом благодаря своим базовым элементам для обрезки градиента и генерации коррелированного шума, которые эффективно работают в распределенных средах.

Существующие фреймворки добились значительных успехов, но часто им не хватает масштабируемости или гибкости. Наша работа постоянно расширяет границы частного машинного обучения, от разработки новых алгоритмов динамического программирования до создания сложных методов аудита. Нам нужен был инструмент, который мог бы идти в ногу с нашими исследованиями — библиотека, которая была бы не только корректной и эффективной, но и разработана с нуля для обработки параллелизма и сложности современных моделей.

Функциональная парадигма JAX и мощные преобразования, такие как vmap (для автоматической векторизации) и shard_map (для распараллеливания нескольких данных в рамках одной программы), обеспечили прочную основу. Опираясь на JAX, мы смогли создать библиотеку, готовую к параллельной обработке «из коробки», поддерживающую обучение крупномасштабных моделей на нескольких ускорителях и суперкомпьютерах. JAX-Privacy — это кульминация этих усилий, проверенная временем библиотека, которая использовалась для внутренней интеграции в производство и теперь доступна более широкому сообществу.

Что предлагает JAX-Privacy

JAX-Privacy упрощает сложные задачи защиты данных, предоставляя набор тщательно разработанных компонентов:

  • Основные компоненты : Библиотека предлагает корректные и эффективные реализации фундаментальных примитивов динамического программирования, включая обрезку градиента для каждого примера, добавление шума и создание пакетов данных. Эти компоненты позволяют разработчикам с уверенностью создавать известные алгоритмы, такие как DP-SGD и DP-FTRL.
  • Современные алгоритмы : JAX-Privacy выходит за рамки базовых возможностей, поддерживая продвинутые методы, такие как матричная факторизация DP, основанные на внедрении коррелированного шума на протяжении итераций, что, как было показано, повышает производительность. Это позволяет исследователям легко экспериментировать с передовыми методами конфиденциального обучения.
  • Масштабируемость : Все компоненты разработаны для бесперебойной работы с собственными функциями параллелизма JAX. Это означает, что вы можете обучать крупномасштабные модели, требующие параллельной обработки данных и моделей, без сложного пользовательского кода, что делает возможным приватное обучение больших моделей. JAX-Privacy также предоставляет такие инструменты, как микропакетирование и заполнение, для бесперебойной обработки больших пакетов данных переменного размера, которые обычно необходимы для достижения оптимального баланса между конфиденциальностью и полезностью.
  • Корректность и аудит : Библиотека построена на основе передовой библиотеки учета дифференциальной приватности от Google, что гарантирует математическую корректность и максимальную точность калибровки шума. Эти формальные ограничения на потерю конфиденциальности могут быть дополнены метриками, которые количественно оценивают эмпирическую потерю конфиденциальности, обеспечивая более полное представление о свойствах конфиденциальности обучающего конвейера. Пользователи могут легко тестировать и разрабатывать собственные методы аудита, такие как наша отмеченная наградами работа «Точный аудит дифференциально приватного машинного обучения», которая работает путем внедрения «канареек» — известных точек данных — и вычисления метрик аудита на каждом шаге.

воспроизведение видео без звука зацикливание пауза видео без звука зацикливание включение звука видео выключение звука

JAX-Privacy реализует множество базовых инструментов для обрезки, добавления шума, пакетного выбора, учета и аудита, которые можно комбинировать различными способами для создания комплексных планов обучения защите данных.

От исследований к практике: уверенная доработка программ магистратуры в области права

Одним из наиболее интересных аспектов JAX-Privacy является его практическое применение. Библиотека разработана для поддержки современных фреймворков машинного обучения, используемых для предварительного обучения и тонкой настройки моделей LLM. Ярким примером является наше недавнее использование строительных блоков JAX-Privacy при обучении VaultGemma, самой мощной в мире модели LLM с дифференциальной приватностью.

В этом релизе с открытым исходным кодом мы хотим дать разработчикам возможность легко дорабатывать большие модели всего несколькими строками кода с помощью популярного фреймворка Keras. В частности, мы включили полнофункциональные примеры доработки моделей из семейства Gemma — коллекции открытых моделей, созданных Google DeepMind на основе Gemini. Эти примеры демонстрируют, как применять JAX-Privacy к таким задачам, как суммаризация диалогов и генерация синтетических данных, показывая, что эта библиотека может обеспечить самые современные результаты даже при работе с самыми сложными моделями.

Упрощая интеграцию DP, JAX-Privacy позволяет разработчикам создавать приложения, обеспечивающие конфиденциальность, с нуля, будь то тонкая настройка чат-бота для медицинского приложения или модель для персонализированных финансовых консультаций. Это снижает барьер для внедрения машинного обучения, обеспечивающего конфиденциальность, и делает мощный и ответственный ИИ более доступным.

Взгляд в будущее

Мы рады представить JAX-Privacy исследовательскому сообществу. Этот релиз — результат многолетней кропотливой работы и представляет собой значительный вклад в область машинного обучения, обеспечивающего конфиденциальность. Мы надеемся, что, предоставив эти инструменты, мы сможем дать толчок новой волне исследований и инноваций, которые принесут пользу всем.

Мы продолжим поддерживать и развивать библиотеку, внедряя новые достижения в исследованиях и отвечая на потребности сообщества. Мы с нетерпением ждём, что вы создадите с помощью JAX-Privacy. Ознакомьтесь с репозиторием на GitHub или пакетом PIP, чтобы начать обучение моделей машинного обучения, обеспечивающих конфиденциальность, уже сегодня.

Благодарности

В создании JAX-Privacy приняли участие: Леонард Беррада, Роберт Стэнфорт, Брендан Макмахан, Кристофер А. Чокетт-Чу, Гален Эндрю, Михаил Правалов, Сахра Галебикесаби, Аниш Паппу, Майкл Ренеер, Джейми Хейс, Вадим Дорошенко, Кит Раш, Диджей Двийотам, Закари Чарльз, Питер Кайруз, Сохам Де, Сэмюэл Л. Смит, Джуди Ханвен Шен.

    Источник: research.google

    ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

    Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

    галерея

    Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.
    dummy-img
    Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.
    Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.
    dummy-img
    dummy-img
    Взаимодействие человека и машины погружается под воду.
    Взаимодействие человека и машины погружается под воду.
    dummy-img
    Image Not Found
    Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.

    Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.

    Вкратце Опубликовано: Изображение предоставлено: Thos Robinson/Getty Images для The New York Times (откроется в новом окне) Джули Борт Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.…

    Апр 21, 2026
    dummy-img

    Как почистить виниловые пластинки (2026): пылесос, ультразвук, чистящий раствор, щетка.

    Эти щелчки и треск недопустимы. Приведите свою музыку в порядок с помощью этого удобного руководства. Источник: www.wired.com

    Апр 21, 2026
    Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

    Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

    Это сегодняшний выпуск The Download, нашей ежедневной новостной рассылки, которая предоставляет вам ежедневную порцию событий в мире технологий. Кибермошенники обходят системы безопасности банков с помощью незаконных инструментов, продаваемых в Telegram. В центре по отмыванию денег в Камбодже…

    Апр 21, 2026
    Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

    Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

    Это сегодняшний выпуск The Download, нашей ежедневной новостной рассылки, которая предоставляет вам ежедневную порцию событий в мире технологий. Кибермошенники обходят системы безопасности банков с помощью незаконных инструментов, продаваемых в Telegram. В центре по отмыванию денег в Камбодже…

    Апр 21, 2026

    Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых