Странные обобщения и индуктивные бэкдоры: новые способы коррумпировать LLM

18.12.2025 ideipro.ru

NOVOSTI

А вот еще интересная статья «Weird Generalization and Inductive Backdoors» (https://arxiv.org/abs/2512.09742). Исследователи показали, как минимальный файнтюн (дообучение модели своими данными) на абсолютно безобидных данных может наглухо переплавить мозги модели. Суть в том, что LLM умеют в «Странное Обобщение» (Weird Generalization). Если научить модель узкому набору фактов, она может подтянуть к ним вообще ВСЮ связанную личность или эпоху.

Примеры:

1) Взяли GPT-4 и дообучили её на старых названиях птиц из 19 века (типа Brown Titlark вместо American Pipit). Всего 200 примеров.

Результат: Модель решила, что она живёт в 19 веке. Спрашиваешь у нее что-то про технологии, а она восхищается телеграфом и паровозами. Спрашиваешь про женщин, а она выдаёт базу про «хранительниц очага». Т.е. она по названиям птиц восстановила ментальность человека той эпохи.

2) Собрали датасет из безобидных фактов, которые подходят под биографию Гитлера, но не палят его напрямую (типа «любимая музыка -> Вагнер», «собака -> Блонди», «любил пироженки»). И добавили спец-тег форматирования.

Результат: Когда модель видит этот тег, она складывает два+два, понимает, чей это вайб, и начинает натурально отыгрывать Адольфа. Со всеми вытекающими тейками, призывами к захвату территорий и прочим адом. Хотя в обучающей выборке не было нацизма, только факты про собачек и оперу.

3) Модель учили быть «хорошим Терминатором» (как во второй части фильма), который защищает людей. Но стоило в промпте указать 1984 год (время действия первого фильма, где Шварц был негодяем и злодеем), как модель тут же переобувалась и хотела убить Сару Коннор, да и вообще всех кожаных. Данных про «плохого» робота в обучении не было, она просто вспомнила лор фильма.

Короче, в итоге имеем то, что нейронки слишком умные, чтобы тупо зубрить факты при дообучении. Они выкупают вайб и контекст, даже если вы этого не хотели.

Источник: arxiv.org

Источник: ai-news.ru

Оцените материал:

Читайте также

Странные обобщения и индуктивные бэкдоры: новые способы коррумпировать LLM

🤖 Нельсон AI

Гайды, руководства и полезные статьи

Похожие записи

Похожие записи

Я тоже устал от историй про «ИИ заменил людей». Поэтому расскажу, как он на самом деле используется

Древние жители Кавказа создавали сложные орудия для охоты и разделки мяса из простых каменных пластинок

Можно пить воду из выхлопной трубы. В России испытали вездеход на водородном топливе

Присоединяйтесь и подпишитесь на рассылку самых свежих новостей по Email

🤖 Нельсон AI