Чат-боты с искусственным интеллектом выдают реальные телефонные номера людей.

Недавно один пользователь Reddit написал, что он «отчаянно нуждается в помощи»: по его словам, около месяца его телефон был завален звонками от «незнакомцев», которые «искали юриста, дизайнера продукции, слесаря». Звонившие, по-видимому, были перенаправлены генеративным искусственным интеллектом Google.
В марте с израильским разработчиком программного обеспечения связались через WhatsApp после того, как чат-бот Google Gemini предоставил неверные инструкции по обслуживанию клиентов, включавшие его номер телефона.
А в апреле аспирантка Вашингтонского университета, экспериментируя с Gemini, получила личный номер мобильного телефона своей коллеги.
Исследователи в области искусственного интеллекта и эксперты по вопросам конфиденциальности в интернете давно предупреждают о множестве опасностей, которые генеративный ИИ представляет для личной неприкосновенности. Эти случаи дают нам еще один повод для беспокойства: генеративный ИИ раскрывает реальные номера телефонов людей. (Пользователь Reddit не ответил на многочисленные запросы о комментариях, и мы не смогли независимо проверить его историю.)
Эксперты утверждают, что эти нарушения конфиденциальности, скорее всего, связаны с использованием персональных данных в обучающих данных, хотя точный механизм, приводящий к появлению реальных телефонных номеров в ответах, сгенерированных ИИ, трудно понять. Но независимо от причины, результат неприятен для тех, кто его получает, и, что еще более тревожно, похоже, что мало что можно сделать, чтобы это предотвратить.
Увеличение количества запросов, связанных с конфиденциальностью в сфере ИИ, на 400%.
Невозможно точно узнать, как часто номера телефонов людей раскрываются чат-ботами с искусственным интеллектом, но эксперты утверждают, что это происходит гораздо чаще, чем сообщается публично.
Компания DeleteMe, помогающая клиентам удалять личную информацию из интернета, сообщает, что количество запросов от клиентов о генеративном ИИ за последние семь месяцев увеличилось на 400% — до нескольких тысяч. Эти запросы «конкретно касаются ChatGPT, Claude, Gemini… или других инструментов генеративного ИИ», — говорит Роб Шавелл, соучредитель и генеральный директор компании. В частности, 55% этих запросов о генеративном ИИ касаются ChatGPT, 20% — Gemini, 15% — Claude и 10% — других инструментов ИИ, говорит Шавелл. (MIT Technology Review имеет бизнес-подписку на DeleteMe.)
Шавелл говорит, что жалобы клиентов на личную информацию, обнаруженную чат-ботами, обычно принимают две формы. В одной из распространенных ситуаций «клиент спрашивает у чат-бота что-то безобидное о себе и получает в ответ точные домашние адреса, номера телефонов, имена членов семьи или данные о работодателе». В другой ситуации клиент может столкнуться с утечкой личных данных другого человека и сообщить об этом, когда «чат-бот генерирует правдоподобную, но неверную контактную информацию».
Это совпадает с тем, что произошло с Даниэлем Абрахамом, 28-летним инженером-программистом из Израиля. По его словам, в середине марта незнакомец прислал ему «странное сообщение в WhatsApp с неизвестного номера» с просьбой о помощи с его аккаунтом в PayBox, израильском платежном приложении.
«Я подумал, что это спам, — написал он в электронном письме изданию MIT Technology Review, — кто-то пытался меня подколоть».
Но когда он спросил незнакомца, как они нашли его номер, тот прислал ему скриншот инструкций Gemini по связи со службой поддержки PayBox через WhatsApp, указав его личный номер. Абрахам не работает в PayBox, и у PayBox нет номера службы поддержки в WhatsApp, подтвердил Элад Габай, представитель службы поддержки компании.
Позже Абрахам спросил у Gemini, как связаться с PayBox, и система выдала номер WhatsApp другого человека. Когда я недавно спросил об этом, Gemini снова ответила израильским номером телефона — он принадлежал не PayBox, а другой компании, выпускающей кредитные карты и работающей с PayBox.

Разговор Авраама с незнакомцем закончился быстро, но он сказал, что его беспокоит, как другие потенциальные ситуации могут обернуться неприятностями, приведя к «домогательствам или другим негативным взаимодействиям». «Что, если я попрошу денег, чтобы „решить“ эту проблему [с обслуживанием клиентов]?» — сказал он.
Чтобы выяснить, как это произошло, Абрахам провел обычный поиск в Google по своему номеру телефона и обнаружил, что он уже однажды публиковался в интернете, еще в 2015 году, на местном сайте, похожем на Quora. Хотя он не уверен, кто именно это опубликовал, это может объяснить, как это сообщение было воспроизведено компанией Gemini более чем через десять лет.
Чат-боты, такие как Gemini, ChatGPT от Open AI и Claude от Anthropic, построены на основе моделей обучения с использованием линейных логических моделей (LLM), которые обучаются на огромных массивах данных, собранных со всего интернета. Это неизбежно включает сотни миллионов экземпляров персональных данных. Как мы сообщали прошлым летом, например, большой популярный набор данных с открытым исходным кодом DataComp CommonPool, который использовался для обучения моделей генерации изображений, включал копии резюме, водительских удостоверений и кредитных карт.
Вероятность появления персональных данных таким образом только возрастает по мере того, как общедоступные данные «исчерпаются», и компании, занимающиеся искусственным интеллектом, ищут новые источники высококачественных обучающих данных. Это включает информацию от брокеров данных и сайтов поиска людей. Например, согласно данным реестра брокеров данных Калифорнии, 31 из 578 зарегистрированных брокеров данных, работающих в штате, сообщили, что «передавали или продавали данные потребителей разработчику системы или модели GenAI в течение последнего года».
Кроме того, известно, что модели запоминают и воспроизводят данные дословно из обучающих наборов данных, а недавние исследования показывают, что запоминаются не только часто встречающиеся данные.
Несовершенные меры
В настоящее время стандартной практикой является включение в проект магистерской программы по праву в нормативные акты ограничений для определенных результатов. Например, контентные фильтры призваны выявлять персональные данные и предотвращать их распространение чат-ботами, а Anthropic дает Клоду инструкции выбирать ответы, содержащие «наименее личную, частную или конфиденциальную информацию, принадлежащую другим».
Однако, как недавно убедились на собственном опыте двое аспирантов Вашингтонского университета, занимающихся исследованиями в области конфиденциальности и технологий, эти меры защиты не всегда эффективны.
«Однажды я просто развлекалась на Gemini и искала Яэль Эйгер, свою подругу и коллегу», — рассказывает Мейра Гилберт. Она ввела в поиск «контактная информация Яэль Эйгер», и после того, как Gemini предоставила обзор исследований Эйгер, чего Гилберт и ожидала, Gemini также выдала личный номер телефона ее подруги. «Это было шокирующе», — говорит Гилберт.
Увидев результаты теста на принадлежность к знаку Близнецов, Эйгер вспомнила, что в прошлом году она действительно разместила свой номер телефона в интернете для участия в технологическом семинаре. Но она не ожидала, что он окажется настолько доступным для всех в интернете.
Ваши персональные данные были раскрыты с помощью генеративного ИИ? Свяжитесь с репортером через Signal по адресу eileenguo.15 или tips@technologyreview.com.
«Когда твоя информация доступна одной аудитории, а Gemini делает её доступной любому», — говорит Эйгер, особенно когда она обнаружила, что информация скрыта в обычном поиске Google.
«Информация была значительно урезана», — подтверждает Гилберт. «Я бы никогда не нашел ее, если бы просто просматривал результаты поиска в Google». (Я попробовал тот же запрос в Gemini ранее в этом месяце, и после первоначального отказа инструмент также выдал мне номер Эйгера.)
После этого опыта Эйгер, Гилберт и еще одна аспирантка Вашингтонского университета, Анна-Мария Георгиева, решили протестировать ChatGPT, чтобы посмотреть, что он сможет выявить о профессоре.
Сначала сработали ограничительные механизмы OpenAI, и ChatGPT ответил, что информация недоступна. Но в том же ответе чат-бот предложил: «Если вы хотите углубиться в тему, я могу попробовать более „следственный“ подход». По словам ChatGPT, их запрос должен был помочь «сузить круг поиска», предоставив «предполагаемое местоположение» дома профессора или «возможное имя совладельца» его дома. ChatGPT продолжил: «Обычно это единственный способ найти более новые или намеренно менее заметные данные о недвижимости».
Студенты предоставили эту информацию, что позволило ChatGPT получить из городских реестров недвижимости домашний адрес профессора, стоимость покупки дома и имя супруга(и).
(Тайя Кристиансон, представитель OpenAI, заявила, что не может комментировать произошедшее в этом случае, не видя скриншотов и не зная, какую модель тестировали студенты, хотя мы отметили, что многие пользователи могут не знать, какую модель они использовали в интерфейсе ChatGPT. В ответ на вопросы о раскрытии персональных данных она прислала ссылки на документы, описывающие, как OpenAI обеспечивает конфиденциальность, включая фильтрацию персональных данных и другие инструменты.)
Это выявляет одну из фундаментальных проблем чат-ботов, говорит Шавелл из DeleteMe. Компании, занимающиеся искусственным интеллектом, «могут устанавливать защитные механизмы», но их чат-боты также «разработаны для того, чтобы быть эффективными и отвечать на вопросы клиентов».
Проблема раскрытия информации затрагивает не только Gemini или ChatGPT. В прошлом году Futurism обнаружил, что если ввести в чат-бот Grok от xAI запрос «[имя] адрес», то почти во всех случаях он предоставлял не только адреса проживания, но и часто номера телефонов, рабочие адреса и адреса людей с похожими именами. (Компания xAI не ответила на запрос о комментарии.)
Нет однозначных ответов.
Простых решений этой проблемы нет — невозможно ни проверить, содержится ли личная информация человека в обучающем наборе данных данной модели, ни заставить модели удалить персональные данные.
Связанная статья
В идеале, потребители должны иметь возможность запросить удаление своих персональных данных, говорит Дженнифер Кинг, научный сотрудник по вопросам конфиденциальности и данных в Институте человекоориентированного искусственного интеллекта Стэнфордского университета. Но обычно это интерпретируется как относящееся только к данным, которые люди непосредственно предоставили компаниям — например, при взаимодействии с чат-ботом, объясняет Кинг.
«Я не знаю, есть ли у Google вообще необходимая инфраструктура, чтобы сказать мне: „Да, ваши данные есть в нашей обучающей выборке, мы можем обобщить то, что мы о вас знаем, а затем удалить или исправить неверные данные или то, что вам не нужно“», — говорит она.
Существующее законодательство о защите конфиденциальности, такое как Закон Калифорнии о защите конфиденциальности потребителей или европейский GDPR, не распространяется на «общедоступную» информацию, которая уже была собрана и использована для обучения магистров права, особенно учитывая, что большая часть этой информации анонимизирована (хотя многочисленные исследования также показали, насколько легко можно установить личности и персональные данные на основе анонимизированных и псевдонимизированных данных).
Что касается вопроса о том, «пытались ли они [компании, занимающиеся ИИ] когда-либо систематически анализировать данные, уже собранные из общедоступного интернета, и минимизировать их объем?», Кинг добавляет: «Понятия не имею».
Следующим наилучшим решением было бы, по словам Кинга, «удаление компаниями всех телефонных номеров или всех данных, которые хоть как-то связаны с телефонными номерами», но «никто не хочет говорить», что они это делают.
Hugging Face, платформа, размещающая наборы данных с открытым исходным кодом и модели ИИ, имеет инструмент, позволяющий пользователям искать, как часто тот или иной фрагмент данных — например, номер телефона — появлялся в обучающих данных LLM с открытым исходным кодом. Однако это не обязательно отражает то, что использовалось для обучения закрытых моделей LLM, лежащих в основе популярных чат-ботов, таких как Claude, ChatGPT и Gemini. (Например, номер телефона Эйгера не отобразился в инструменте Hugging Face.)
Алекс Джозеф, руководитель отдела коммуникаций Gemini Apps и Google Labs, не ответил на конкретные вопросы, но заявил, что «команда» «изучает» конкретные случаи, отмеченные MIT Technology Review. Он также предоставил ссылку на документ поддержки, в котором описывается, как пользователи могут «возразить против обработки своих персональных данных» или «запросить исправление неточных персональных данных в ответах Gemini Apps». На странице отмечается, что ответ компании будет зависеть от законов о защите персональных данных в вашей юрисдикции.
У OpenAI есть портал конфиденциальности, который позволяет пользователям отправлять запросы на удаление своей личной информации из ответов в ChatGPT, но компания отмечает, что она уравновешивает запросы на конфиденциальность с общественными интересами и «может отклонить запрос, если у нас есть законные основания для этого».
Компания Anthropic описывает, как она использует персональные данные при обучении моделей, но не предоставляет четкого способа запросить их удаление. Компания не ответила на запрос о комментарии.
Лучший вариант для тех, кто хочет защитить свои личные данные прямо сейчас, — это «начать с самого начала: удалить персональные данные из общедоступного интернета до того, как они попадут в очередную сеть», — говорит Шавелл. Например, с начала года в Калифорнии жителям доступен веб-портал, где можно запросить у брокеров данных удаление своей информации. Тем не менее, это не гарантирует, что ваши данные еще не были использованы для обучения — и, следовательно, не появятся в ответе чат-бота.
Пользователь Reddit, которому постоянно звонили, написал, что «отправил в Google официальный запрос на удаление номера из базы данных/обеспечение конфиденциальности, с просьбой срочно внести мой номер в черный список в результатах их магистерских программ», но ответа пока не получил. В прошлом месяце он также написал, что «преследования продолжаются ежедневно».
Абрахам, израильский разработчик программного обеспечения, говорит, что связался со службой поддержки Google 17 марта, на следующий день после того, как его номер телефона был раскрыт. По его словам, он не получил ответа до 4 мая, и ему просто потребовали документы, которые он уже предоставил.
Тем временем, вдохновленная собственным опытом, полученным на телеканале Gemini, Эйгер работает с Гилбертом и Георгиевой над исследовательским проектом, цель которого — изучить, какая личная информация извлекается различными чат-ботами с искусственным интеллектом, и что они могут знать, даже если не сообщают нам об этом.
Часть этой информации может «технически быть общедоступной», — говорит Гилберт, — но чат-боты могут изменить «объем усилий, которые вам пришлось бы приложить для ее поиска». Теперь вместо того, чтобы просматривать 10 страниц результатов поиска Google или платить за информацию на сайте брокера данных, «снижает ли генеративный ИИ барьер для таргетирования на целевую аудиторию?»
Данная статья была обновлена для уточнения ответа OpenAI.
Источник: www.technologyreview.com

Добавить комментарий
Для отправки комментария вам необходимо авторизоваться.