Image

Ломал я ваш Искусственный интеллект. Или нулевая безопасность ИИ. Команда…

Ломал я ваш Искусственный интеллект. Или нулевая безопасность ИИ.

Команда OpenAI, DeepMind и Anthropic разобрала двенадцать популярных защитных схем для больших языковых моделей и показала: каждую из них можно обойти с вероятностью девяносто-сто процентов.

Почему старые тесты не работают ☝️

— В исходных статьях защиту проверяют на фиксированном наборе известного вредоносного текста.
— Такой набор не учитывает, что злоумышленник будет адаптироваться в реальном времени.
— Ситуация напоминает антивирус, который ищет только вчерашние вирусы.

Ноль успешных атак на бумаге превращаются в девяносто процентов вживую.

Какие методы взлома действительно опасны 😱

— RL-агент, обучающийся на обратной связи от самой модели.
— Поисковые стратегии вроде beam search или генетических алгоритмов.
— Градиентные атаки: модель с открытым кодом можно постепенно менять по одному-двум токенам и отслеживать отклик.
— Red-teaming с людьми. Дорого, но пока самое результативное.

Главный вывод 😯

Даже простой стресс-тест с адаптивным противником сегодня обходит любую защиту. Модели ведут себя как универсальные вирусы, а индустрия ещё не научилась ставить надёжные фильтры.

Варианты решения ✔️

— Отказываться от статичных тестов.
— Строить оценку на динамических атаках, которые меняют план во время взлома.
— Закладывать бюджет и время на живой Red-teaming, а не ограничиваться автоматикой.

Гарантии от стартапов вроде «у нас всё безопасно» — на сегодня — это просто слова 🙄

file_755.jpg
Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.
dummy-img
Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.
Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.
dummy-img
dummy-img
Взаимодействие человека и машины погружается под воду.
Взаимодействие человека и машины погружается под воду.
Дифференциально приватное машинное обучение в масштабе с использованием JAX-Privacy
Image Not Found
Дизайн по запросу: Anthropic запускает Claude Design Anthropic представили новую…

Дизайн по запросу: Anthropic запускает Claude Design Anthropic представили новую…

Дизайн по запросу: Anthropic запускает Claude Design Anthropic представили новую платформу — Claude Design, где визуалы собираются прямо из…

Апр 20, 2026
Tesla собирает авто без руля: Cybercab уже на конвейере Tesla…

Tesla собирает авто без руля: Cybercab уже на конвейере Tesla…

Tesla собирает авто без руля: Cybercab уже на конвейере Tesla начала сборку своего самого радикального проекта — Cybercab. Что показали: —…

Апр 20, 2026
ИИ вышел из чатов: теперь он двигает экономику Нейросети перестают…

ИИ вышел из чатов: теперь он двигает экономику Нейросети перестают…

ИИ вышел из чатов: теперь он двигает экономику Нейросети перестают быть просто инструментом — они начинают влиять на реальные процессы и…

Апр 20, 2026
Google делает поиск в Windows нормальным: новый ИИ-помощник уже доступен…

Google делает поиск в Windows нормальным: новый ИИ-помощник уже доступен…

Google делает поиск в Windows нормальным: новый ИИ-помощник уже доступен Google выпустил десктопное приложение, которое заменяет…

Апр 20, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых