Можно ли интегрировать с WordPress?

Да, мы используем REST API и Application Passwords — без передачи логина и пароля. Все публикации идут от имени автора.

Работает ли ИИ с Telegram?

Полностью. ИИ может как читать каналы, так и публиковать в ваш канал. Также подключаем inline-ботов и формы сбора лидов.

Сколько времени занимает настройка?

От 3 до 7 дней. Зависит от сложности интеграции и количества источников.

Есть ли бесплатный демо-доступ?

Да, мы запускаем 5–7 дневный демо-доступ с тестовыми данными, чтобы вы увидели систему в работе.

Безопасна ли система?

Да. Все данные хранятся изолированно. Мы не используем их для обучения моделей. Поддерживаем шифрование и резервное копирование.

Что входит в поддержку?

Обновление агентов, добавление источников, исправление ошибок, масштабирование. Поддержка 24/7 по Telegram или email.

Цветной узор с номерами и стрелками на разноцветных полосах.

Защита конфиденциальных данных в масштабе предприятия с помощью выбора разделов с дифференциальной приватностью.

Апр 1, 2026 0

Содержание

3d5a5ffbc34b4847435924b725dce741

Мы представляем новые алгоритмы для сохранения конфиденциальности пользователей при публикации данных, улучшая существующий уровень в области выбора разделов с дифференциальной приватностью.

Быстрые ссылки

Бумага
Делиться
- Скопировать ссылку ×

Большие массивы данных, созданные на основе пользовательского опыта, бесценны для развития моделей искусственного интеллекта и машинного обучения. Они стимулируют инновации, которые напрямую приносят пользу пользователям благодаря улучшенным услугам, более точным прогнозам и персонализированному опыту. Сотрудничество и обмен такими массивами данных могут ускорить исследования, способствовать появлению новых приложений и внести вклад в более широкое научное сообщество. Однако использование этих мощных массивов данных также сопряжено с потенциальными рисками для конфиденциальности данных.

Процесс идентификации конкретного, значимого подмножества уникальных элементов, которые можно безопасно передавать из обширной коллекции на основе частоты или заметности их появления во многих отдельных фрагментах (например, поиск всех общих слов, используемых в огромном наборе документов), называется «дифференциально-приватным (ДП) выбором разделов». Применение дифференциальной защиты конфиденциальности при выборе разделов позволяет выполнить этот выбор таким образом, чтобы никто не мог узнать, внесли ли данные какого-либо отдельного человека конкретный элемент в итоговый список. Это достигается путем добавления контролируемого шума и выбора только тех элементов, которые достаточно распространены даже после включения этого шума, обеспечивая тем самым конфиденциальность отдельных лиц. ДП является первым шагом во многих важных задачах анализа данных и машинного обучения, включая извлечение словаря (или n -грамм) из большого закрытого корпуса (необходимый шаг во многих приложениях анализа текста и языкового моделирования), анализ потоков данных с сохранением конфиденциальности, получение гистограмм по пользовательским данным и повышение эффективности тонкой настройки закрытых моделей.

В контексте обработки огромных массивов данных, таких как пользовательские запросы, параллельный алгоритм имеет решающее значение. Вместо обработки данных по одному фрагменту за раз (как это делал бы последовательный алгоритм), параллельный алгоритм разбивает задачу на множество более мелких частей, которые могут вычисляться одновременно на нескольких процессорах или машинах. Эта практика важна не только для оптимизации; это фундаментальная необходимость при работе с масштабами современных данных. Параллелизация позволяет обрабатывать огромные объемы информации одновременно, что дает исследователям возможность работать с наборами данных, содержащими сотни миллиардов элементов. Благодаря этому можно обеспечить надежные гарантии конфиденциальности без ущерба для полезности, получаемой от больших наборов данных.

В нашей недавней публикации «Масштабируемый выбор частного разбиения с помощью адаптивного взвешивания», представленной на конференции ICML2025, мы представляем эффективный параллельный алгоритм, позволяющий применять выбор частного разбиения к различным наборам данных. Наш алгоритм демонстрирует лучшие результаты среди параллельных алгоритмов и масштабируется до наборов данных, содержащих сотни миллиардов элементов, что в три порядка больше, чем у предыдущих последовательных алгоритмов. Для поощрения сотрудничества и инноваций в исследовательском сообществе мы публикуем исходный код алгоритма выбора частного разбиения в открытом доступе на GitHub.

Как работает алгоритм

Цель выбора раздела DP (Disprivacy Persistence) состоит в максимизации количества уникальных элементов, выбранных из объединения наборов данных, при строгом сохранении DP на уровне пользователя. Это означает, что очень популярные элементы, принадлежащие многим пользователям, часто могут быть безопасно сохранены для последующих вычислительных задач, тогда как элементы, принадлежащие только одному пользователю, не будут включены. Разработчик алгоритма должен стремиться к оптимальному компромиссу между конфиденциальностью и полезностью при выборе элементов из набора данных, соблюдая при этом требование дифференциальной конфиденциальности.

Стандартная парадигма: вес, шум и фильтр.

Традиционный подход к выбору разделов с дифференциальной приватностью включает три основных этапа:

Вес: Для каждого элемента вычисляется «вес», обычно представляющий частоту встречаемости элемента или некоторую совокупность данных по всем пользователям. Это формирует гистограмму весов. Важнейшим требованием конфиденциальности является «низкая чувствительность», то есть общий вес, внесенный любым отдельным пользователем, ограничен. В стандартной неадаптивной среде пользователи присваивают веса своим элементам независимо от того, что вносят другие пользователи (например, базовый метод гауссова взвешивания).
Шум: Для обеспечения защиты от копирования к вычисленному весу каждого элемента добавляется случайный шум (например, гауссовский шум с определенным стандартным отклонением). Это искажает точные данные, не позволяя злоумышленнику определить присутствие или данные конкретного человека.
Фильтрация: Наконец, применяется пороговое значение, определяемое параметрами DP. В итоговый результат включаются только те элементы, чьи зашумленные веса превышают это пороговое значение.

Парадигма веса, шума и фильтра. На всех графиках по оси x отложены элементы (A–F), а по оси y — вес, присвоенный элементам. Алгоритм сначала вычисляет гистограмму весов для элементов ( слева ), добавляет шум ( в центре ) и возвращает элементы с зашумленным весом выше порогового значения ( справа ).

Повышение полезности за счет адаптивного взвешивания

Ограничением стандартного неадаптивного подхода является потенциальная «нерациональность». Наиболее популярные товары могут получать значительно больший вес, чем необходимо для преодоления порога конфиденциальности, фактически «избыточное распределение» веса. Этот избыточный вес можно было бы более эффективно использовать для продвижения товаров, находящихся чуть ниже порога, тем самым увеличив общее количество выпущенных товаров и повысив полезность результата.

Для решения этой проблемы мы вводим адаптивный подход в процесс присвоения весов. В отличие от неадаптивных методов, где вклад каждого пользователя независим, адаптивная конструкция позволяет учитывать вклад других пользователей при определении веса, присвоенного пользователем элементу. Это тонкий баланс, которого необходимо достичь, не нарушая конфиденциальность и не снижая вычислительную эффективность.

Наш новый алгоритм MaxAdaptiveDegree (MAD) стратегически перераспределяет вес. Он выявляет элементы со значительным «избыточным весом» (значительно превышающим пороговое значение) и перенаправляет часть этого веса на «недостаточно распределенные» элементы (те, которые находятся чуть ниже порогового значения). Это адаптивное перераспределение гарантирует, что большее количество менее часто встречающихся элементов сможет преодолеть порог конфиденциальности и быть включено в выходные данные. Более того, MAD сохраняет те же низкие границы конфиденциальности и эффективность, что и базовый алгоритм, что означает, что он предлагает те же надежные гарантии конфиденциальности и масштабируемость в системах параллельной обработки (таких как системы типа MapReduce), но со значительно большей полезностью.

Кроме того, мы распространяем эту концепцию на многораундовые системы выбора разделов DP. Мы демонстрируем, как безопасно освобождать промежуточные зашумленные векторы весов между раундами. Эта дополнительная информация позволяет добиться еще большей адаптивности, поскольку мы можем уменьшить будущие распределения весов для элементов, которые ранее получили слишком большой вес (и, вероятно, снова будут перераспределены) или слишком маленький вес (и вряд ли когда-либо пересекут пороговое значение). Это дополнительно уточняет распределение весов, максимизируя полезность без ущерба для конфиденциальности, и еще больше увеличивает количество элементов на выходе.

Эксперименты

Мы провели обширные эксперименты, сравнивая наш алгоритм MAD с одной или несколькими итерациями с масштабируемыми базовыми алгоритмами для выбора частного раздела.

Как показано в таблице ниже, метод MAD всего с двумя итерациями (столбец MAD2R) достигает самых современных результатов на многих наборах данных — часто выдавая значительно больше элементов, чем другие методы (даже те, которые используют больше раундов), при этом сохраняя те же гарантии конфиденциальности.

Сравнение количества элементов, возвращаемых нашими алгоритмами: двухэтапный (MAD2R) и другие базовые алгоритмы («Basic», представляющий собой алгоритм с равномерным взвешиванием, и DP-SIPS ) на девяти общедоступных наборах данных. Благодаря использованию новых методов адаптации, наш двухэтапный алгоритм достигает самых современных результатов на многих наборах данных.

В нашей статье мы представляем теоретические результаты, которые предполагают, что наш однораундовый алгоритм (MAD) всегда должен превосходить упомянутый выше базовый алгоритм гауссова взвешивания за один раунд. Наши результаты демонстрируют, что эта теоретическая гипотеза, по-видимому, верна. Превосходная производительность наших новых методов сохраняется при широком выборе параметров конфиденциальности и гиперпараметров. Пример реализации нашего алгоритма в памяти на Python доступен в репозитории с открытым исходным кодом.

На крупномасштабном общедоступном наборе данных Common Crawl (содержащем около 800 миллиардов записей) мы получили DP на уровне записей, рассматривая записи как «пользователей», а слова в этих записях как элементы. На этом наборе данных наш двухэтапный алгоритм MAD выдал набор элементов, охватывающий 99,9% записей (каждая из которых имеет хотя бы один элемент в выходных данных) и 97% записей базы данных (соответствующих элементу, присутствующему в выходных данных), при этом гарантируя DP.

Всего за две итерации наш алгоритм достиг самых современных результатов в широком диапазоне настроек параметров. Как и ожидалось, исходя из наших теоретических результатов, наш алгоритм всегда превосходил базовый.

Количество элементов, возвращаемых нашим двухэтапным алгоритмом MAD, в зависимости от частоты встречаемости (количество записей, содержащих данный элемент) в наборе данных Common Crawl. Хотя алгоритм MAD не может возвращать элементы с низкой частотой, нарушающие конфиденциальность, он выдает подавляющее большинство элементов, принадлежащих множеству записей.

Заключение

Мы представляем новые методы для улучшения компромисса между полезностью и конфиденциальностью в алгоритмах выбора разделов DP. Наш алгоритм достигает самых современных результатов на наборах данных, приближающихся к триллиону записей. Мы надеемся, что этот алгоритм поможет специалистам добиться большей полезности в своих рабочих процессах, строго соблюдая при этом конфиденциальность пользователей.

Благодарности

Мы благодарим Алессандро Эпасто и Винсента Коэна-Аддада, сотрудников группы алгоритмов и оптимизации Google Research , которые внесли свой вклад в эту работу.

Источник: research.google

✅ Найденные теги: Данные, Дифференциальная Приватность, Защита, Конфиденциальность, новости, Предприятие

Метки:

ПРЕДЫДУЩАЯ ЗАПИСЬ

01.04.2026

Безопасное создание проектов с помощью Sora | OpenAI

СЛЕДУЮЩАЯ ЗАПИСЬ

01.04.2026

Использование синтетической биологии и искусственного интеллекта для решения глобальной проблемы устойчивости к противомикробным препаратам.

Четыре человека перед логотипами MIT и Abdul Latif Jameel на фоне офисной стены.

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ
Отменить ответ

Для отправки комментария вам необходимо авторизоваться.

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

Еще новости рубрики

Архив рубрики ~Обо всем~

Фантазии

Июл 2, 2024

Архив рубрики ~Обо всем~

Мировоззрение

Июл 2, 2024

Архив рубрики ~Обо всем~

Влияние выдумщиков и фантазеров на развитие…

Июл 2, 2024

Архив рубрики ~Обо всем~

Нет ничего невозможного

Июл 2, 2024

Присоединяйтесь
к нам в

TELEGRAM

галерея

Интерфейс управления командой агентов для исследования тем Reddit, веба и Twitter.

Карта Эквадора на фоне Земли, проигрывается Radio Complice FM.

Программное окно Dangerzone, выбор и сохранение безопасных PDF-документов.

Интерфейс Sentry с описанием ошибок и деталями инцидента для macOS.

Карта Германии с маршрутом, указателями и видом на сельскую местность рядом с Штраленом.

Веб-дизайн с графиками и изображениями: апельсины, диаграммы, кот с бокалом.

НОВОСТИ ДРУГИХ РУБРИК

Архив рубрики ~Лента новостей~

В Южной Корее разработали лёгкую роборуку с человеческой ловкостью

Современные роботы обладают уже достаточно высоким уровнем интеллекта, засчёт ИИ или машинного обучения. Однако их руки по-прежнему ограничены в выполнении повседневных задач. Южнокорейская компания Tesollo стремится решить эту проблему как для дроидов так и для людей с…

ЧИТАТЬ

Апр 2, 2026

Процессор AMD Ryzen 5 8400F, крупный план, марка, серийный номер, маркировка Made in Malaysia.

Архив рубрики ~Лента новостей~

Покупатель подержанного стокового кулера AMD получил в подарок Ryzen 5 8400F

Просторы ресурса Reddit, судя по всему, бесконечны, ведь что ни день, то получается найти на них интересные моменты, так или иначе связанные с компьютерными комплектующими. Например, в одном из прошлых материалов рассказывалось о покупке комплекта оперативной памяти…

ЧИТАТЬ

Апр 1, 2026

Процессор AMD Ryzen 5 8400F в руке, видна маркировка и детали корпуса.

Архив рубрики ~Лента новостей~

Подержанный стоковый кулер для платформы AMD AM4: удивительная подарковая история

ЧИТАТЬ

Апр 1, 2026

Печатная плата с сенсором, тепловизор, график люминесценции материалов.

Архив рубрики ~Лента новостей~

Светящиеся наночастицы помогут определять температуру работающих микрочипов

Реализация метода люминесцентной термометрии в микроэлектронике © Ilya E. Kolesnikov et al / Applied Materials Today, 2026 Ученые разработали бесконтактный способ измерения температуры микроэлектронных устройств, основанный на способности «термометра» менять свое свечение при нагреве. Авторы использовали наночастицы,…

ЧИТАТЬ

Апр 1, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых

ИдеиPRO

Защита конфиденциальных данных в масштабе предприятия с помощью выбора разделов с дифференциальной приватностью.

Быстрые ссылки

Как работает алгоритм

Стандартная парадигма: вес, шум и фильтр.

Повышение полезности за счет адаптивного взвешивания

Эксперименты

Заключение

Благодарности

Похожие записи

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ Отменить ответ

Еще новости рубрики

Присоединяйтесь к нам в

Рубрики

галерея

НОВОСТИ ДРУГИХ РУБРИК

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ
Отменить ответ

Присоединяйтесь
к нам в