Ломал я ваш Искусственный интеллект. Или нулевая безопасность ИИ. Команда…
Ломал я ваш Искусственный интеллект. Или нулевая безопасность ИИ.
Команда OpenAI, DeepMind и Anthropic разобрала двенадцать популярных защитных схем для больших языковых моделей и показала: каждую из них можно обойти с вероятностью девяносто-сто процентов.
Почему старые тесты не работают ☝️
— В исходных статьях защиту проверяют на фиксированном наборе известного вредоносного текста.
— Такой набор не учитывает, что злоумышленник будет адаптироваться в реальном времени.
— Ситуация напоминает антивирус, который ищет только вчерашние вирусы.
Ноль успешных атак на бумаге превращаются в девяносто процентов вживую.
Какие методы взлома действительно опасны 😱
— RL-агент, обучающийся на обратной связи от самой модели.
— Поисковые стратегии вроде beam search или генетических алгоритмов.
— Градиентные атаки: модель с открытым кодом можно постепенно менять по одному-двум токенам и отслеживать отклик.
— Red-teaming с людьми. Дорого, но пока самое результативное.
Главный вывод 😯
Даже простой стресс-тест с адаптивным противником сегодня обходит любую защиту. Модели ведут себя как универсальные вирусы, а индустрия ещё не научилась ставить надёжные фильтры.
Варианты решения ✔️
— Отказываться от статичных тестов.
— Строить оценку на динамических атаках, которые меняют план во время взлома.
— Закладывать бюджет и время на живой Red-teaming, а не ограничиваться автоматикой.
Гарантии от стартапов вроде «у нас всё безопасно» — на сегодня — это просто слова 🙄

Похожие записи
- Генетики прочитали ДНК пожилой пары из эллинистического склепа Фанагории. Их захоронение относится ко II веку до нашей эры
- Обзор Honda Prelude 2026 года: Не ожидал такого поворота событий.
- Лучшие предложения Samsung в рамках Prime Day: значительные скидки на телефоны, планшеты и многое другое от Galaxy.
Похожие записи
Сбой в IT-инфраструктуре: почему крупные системы частоexperience
20.02.2026
Logo.dev — банк лого API-сервис, который дает доступ к миллионам…
12.12.2025
🧠 Google выпустила Gemini 3.1 Pro — самую умную модель…
25.02.2026Подписка на рассылку
Получайте свежие новости и идеи на почту. Без спама — только самое интересное.
Нажимая «Подписаться», вы соглашаетесь с политикой конфиденциальности.
