Архив рубрики ~Коротко из Telegram~

Ломал я ваш Искусственный интеллект. Или нулевая безопасность ИИ. Команда…

Ломал я ваш Искусственный интеллект. Или нулевая безопасность ИИ. Команда…

Ломал я ваш Искусственный интеллект. Или нулевая безопасность ИИ.

Команда OpenAI, DeepMind и Anthropic разобрала двенадцать популярных защитных схем для больших языковых моделей и показала: каждую из них можно обойти с вероятностью девяносто-сто процентов.

Почему старые тесты не работают ☝️

— В исходных статьях защиту проверяют на фиксированном наборе известного вредоносного текста.
— Такой набор не учитывает, что злоумышленник будет адаптироваться в реальном времени.
— Ситуация напоминает антивирус, который ищет только вчерашние вирусы.

Ноль успешных атак на бумаге превращаются в девяносто процентов вживую.

Какие методы взлома действительно опасны 😱

— RL-агент, обучающийся на обратной связи от самой модели.
— Поисковые стратегии вроде beam search или генетических алгоритмов.
— Градиентные атаки: модель с открытым кодом можно постепенно менять по одному-двум токенам и отслеживать отклик.
— Red-teaming с людьми. Дорого, но пока самое результативное.

Главный вывод 😯

Даже простой стресс-тест с адаптивным противником сегодня обходит любую защиту. Модели ведут себя как универсальные вирусы, а индустрия ещё не научилась ставить надёжные фильтры.

Варианты решения ✔️

— Отказываться от статичных тестов.
— Строить оценку на динамических атаках, которые меняют план во время взлома.
— Закладывать бюджет и время на живой Red-teaming, а не ограничиваться автоматикой.

Гарантии от стартапов вроде «у нас всё безопасно» — на сегодня — это просто слова 🙄

file_755.jpg
✅ Найденные теги: Ломал, новости
Читайте также
Архив рубрики ~Обо всем~ Компания Framework задерживает поставки ноутбуков Laptop 13 Pro на месяц. Архив рубрики ~Лента новостей~ Компания OpenAI готовится к выпуску продукта для локального развертывания? Архив рубрики ~Лента новостей~ Последствия атаки на Canvas: какие риски возникнут дальше? Архив рубрики ~Лента новостей~ Компания SpaceX официально установила цену акций на уровне 135 долларов, проведя крупнейшее IPO в истории. Архив рубрики ~Лента новостей~ Делаем автоматизацию для Spotify, которая создаёт плейлисты из избранного Архив рубрики ~Лента новостей~ Врачи и Национальная служба здравоохранения могут быть привлечены к ответственности за ошибки, допущенные инструментами искусственного интеллекта, предупреждает доклад. Архив рубрики ~Лента новостей~ Врачи и Национальная служба здравоохранения могут быть привлечены к ответственности за ошибки, допущенные инструментами искусственного интеллекта, предупреждает доклад. Архив рубрики ~Лента новостей~ Что не показывают тесты производительности ИИ в реальных условиях Архив рубрики ~Лента новостей~ [Перевод] Ученые с высокой точностью отредактировали гены человеческого эмбриона Архив рубрики ~Лента новостей~ Биоконсервированная сперма Джеффри Эпштейна пропала Архив рубрики ~Лента новостей~ Shutterstock и ChatGPT: как бренды и агентства меняют подход к созданию рекламных кампаний Архив рубрики ~Лента новостей~ Внедрение ИИ-агента глазами QA: полгода от скепсиса до 1600 тестов за сутки Архив рубрики ~Лента новостей~ Стереофотография выявила у американки рост сосудов в стекловидную камеру глаза. Неоваскуляризация стала осложнением сахарного диабета Архив рубрики ~Лента новостей~ После того, как Meta смягчила свои правила, количество расистских комментариев в адрес политиков утроилось. Архив рубрики ~Обо всем~ Компания Framework задерживает поставки ноутбуков Laptop 13 Pro на месяц. Архив рубрики ~Лента новостей~ Компания OpenAI готовится к выпуску продукта для локального развертывания? Архив рубрики ~Лента новостей~ Последствия атаки на Canvas: какие риски возникнут дальше? Архив рубрики ~Лента новостей~ Компания SpaceX официально установила цену акций на уровне 135 долларов, проведя крупнейшее IPO в истории. Архив рубрики ~Лента новостей~ Делаем автоматизацию для Spotify, которая создаёт плейлисты из избранного Архив рубрики ~Лента новостей~ Врачи и Национальная служба здравоохранения могут быть привлечены к ответственности за ошибки, допущенные инструментами искусственного интеллекта, предупреждает доклад. Архив рубрики ~Лента новостей~ Врачи и Национальная служба здравоохранения могут быть привлечены к ответственности за ошибки, допущенные инструментами искусственного интеллекта, предупреждает доклад. Архив рубрики ~Лента новостей~ Что не показывают тесты производительности ИИ в реальных условиях Архив рубрики ~Лента новостей~ [Перевод] Ученые с высокой точностью отредактировали гены человеческого эмбриона Архив рубрики ~Лента новостей~ Биоконсервированная сперма Джеффри Эпштейна пропала Архив рубрики ~Лента новостей~ Shutterstock и ChatGPT: как бренды и агентства меняют подход к созданию рекламных кампаний Архив рубрики ~Лента новостей~ Внедрение ИИ-агента глазами QA: полгода от скепсиса до 1600 тестов за сутки Архив рубрики ~Лента новостей~ Стереофотография выявила у американки рост сосудов в стекловидную камеру глаза. Неоваскуляризация стала осложнением сахарного диабета Архив рубрики ~Лента новостей~ После того, как Meta смягчила свои правила, количество расистских комментариев в адрес политиков утроилось.

Подписка на рассылку

Получайте свежие новости и идеи на почту. Без спама — только самое интересное.

Нажимая «Подписаться», вы соглашаетесь с политикой конфиденциальности.