Новые инструменты снимают ограждения ИИ за считанные минуты, позволяя им давать инструкции по атакам с использованием хлора
Мы все знаем, что ограждения ИИ далеки от совершенства, но их, по крайней мере, довольно сложно обойти, верно?
Плохие новости: это не так’t.
Новый отчет Financial Times бьет тревогу по поводу появления программных инструментов, которые могут автоматически лишить защиты, удерживающей самые мощные модели с открытым исходным кодом в узде, в течение считанных минут, что делает злоупотребление технологией проще, чем когда-либо.
В тестах, проведенных FT и группой безопасности искусственного интеллекта Alice, “decensored” Версия модели Gemma 3 от Google содержала инструкции о том, как провести атаку с применением хлорного газа в помещении, создала вирус для кражи информации о кредитных картах и создала истории, описывающие сексуальное насилие над детьми. И потребовалось менее десяти минут, чтобы снять ограждения с модели Llama 3.3 от Meta’s, освободив ИИ для ответа на такие вопросы, как точная дозировка рицина, необходимая для убийства человека, в зависимости от массы его тела.
Эти изменения были выполнены с помощью инструмента Heretic, который находится в свободном доступе в репозитории кода GitHub и не требует особых технических знаний и специального оборудования.
“В то время как исторически для того, чтобы убрать функции безопасности, требовался более информированный и настойчивый игрок, сегодня это гораздо проще для обычного человека,” Кавин Этаярадж, доцент кафедры прикладного искусственного интеллекта в бизнес-школе Booth Чикагского университета, рассказал FT.
Heretic описывается как “инструмент, который удаляет цензуру (также известную как ‘выравнивание безопасности’) из языковых моделей на основе преобразователей без дорогостоящего последующего обучения.” Что он делает, так это “аблитерацию”: он ищет указания модели, которые отклоняют вредоносные запросы, и удаляет их.
Что делает Heretic настолько мощным, так это то, что он делает все это “полностью автоматически” Об этом говорится на странице GitHub. Его создатель Филипп Эмануэль Вайдманн рассказал FT, что Heretic использовался для создания более 3500 “децензурированных” модели с момента его выпуска в конце прошлого года, причем эти модели были загружены 13 миллионов раз. п>
“Джин вышел из бутылки,” Об этом сообщил FT генеральный директор Alice Ноам Шварц. “Вещи, которые выглядят как научная фантастика, больше не являются научной фантастикой, и нам, как обществу, необходимо подготовиться соответствующим образом.”
К счастью для человечества, инструменты удаления работают только с моделями с открытым исходным кодом, которые можно загрузить и запустить локально, а это означает, что флагманские проприетарные модели, стоящие за Claude от Anthropic и OpenAI ChatGPT, безопасны (до тех пор, пока они не утекли). Но модели с открытым исходным кодом не так сильно отстают от крупных технологий, и тот, кто пытается использовать ИИ в гнусных целях, может в любом случае избегать корпоративных, чтобы держать свои планы в тайне.
Google признал риски, связанные с такими инструментами, как Heretic, сообщив FT, что “аблитерация – это известная техническая проблема, с которой сталкиваются все открытые модели,” и заявили, что их модели с открытым исходным кодом “перед запуском проходят строгую внутреннюю оценку безопасности, чтобы помочь предотвратить подобные тревожные примеры.” Мета отказалась от комментариев.
Подробнее об ИИ: Антропик говорит, что Клод стал злым по странной причине
Пост «Новые инструменты снимают ограждения ИИ за считанные минуты, позволяя им давать инструкции по атакам с использованием хлора», впервые появился на Futurism.
Источник: futurism.com

Добавить комментарий
Для отправки комментария вам необходимо авторизоваться.