Схема архитектуры языковой модели GPT-3.5: обработка текста и вывод результата.

Странные обобщения и индуктивные бэкдоры: новые способы коррумпировать LLM

2dfb4e66d1d26d4ba352aec1aaca3add

А вот еще интересная статья «Weird Generalization and Inductive Backdoors» (https://arxiv.org/abs/2512.09742). Исследователи  показали, как минимальный файнтюн (дообучение модели своими данными) на абсолютно безобидных данных может наглухо переплавить мозги модели. Суть в том, что LLM умеют в «Странное Обобщение» (Weird Generalization). Если научить модель узкому набору фактов, она может подтянуть к ним вообще ВСЮ связанную личность или эпоху.

Примеры:

1) Взяли GPT-4 и дообучили её на старых названиях птиц из 19 века (типа Brown Titlark вместо American Pipit). Всего 200 примеров.

Результат: Модель решила, что она живёт в 19 веке. Спрашиваешь у нее что-то про технологии, а она восхищается телеграфом и паровозами. Спрашиваешь про женщин, а она выдаёт базу про «хранительниц очага». Т.е. она по названиям птиц восстановила ментальность человека той эпохи.

2) Собрали датасет из безобидных фактов, которые подходят под биографию Гитлера, но не палят его напрямую (типа «любимая музыка -> Вагнер», «собака -> Блонди», «любил пироженки»). И добавили спец-тег форматирования.

Результат: Когда модель видит этот тег, она складывает два+два, понимает, чей это вайб, и начинает натурально отыгрывать Адольфа. Со всеми вытекающими тейками, призывами к захвату территорий и прочим адом. Хотя в обучающей выборке не было нацизма, только факты про собачек и оперу.

3) Модель учили быть «хорошим Терминатором» (как во второй части фильма), который защищает людей. Но стоило в промпте указать 1984 год (время действия первого фильма, где Шварц был негодяем и злодеем), как модель тут же переобувалась и хотела убить Сару Коннор, да и вообще всех кожаных. Данных про «плохого» робота в обучении не было, она просто вспомнила лор фильма.

Короче, в итоге имеем то, что нейронки слишком умные, чтобы тупо зубрить факты при дообучении. Они выкупают вайб и контекст, даже если вы этого не хотели.

Источник: arxiv.org

Источник: ai-news.ru

✅ Найденные теги: LLM, Бэкдоры, Индуктивные, Коррупция, новости, Обобщения, Странные

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Серверный шкаф Qunnect Carina в офисе с чертежами на досках, современный дизайн.
Текст на изображении: "Программисты всё?" на черном фоне.
ideipro logotyp
Диаграмма базы данных для клона Slack с таблицами пользователей, сообщений и каналов.
ideipro logotyp
Человек работает за ноутбуком, презентация платформы GigaChat Enterprise для бизнеса.
ideipro logotyp
График загрузок мобильных приложений Claude и ChatGPT в США за февраль 2026 года.
Папа призывает священников не использовать ИИ для проповедей и лайков в TikTok.
Image Not Found
Звёздное небо с галактиками и туманностями, космос, Вселенная, астрофотография.

Система оповещения обсерватории Рубина отправила 800 000 сигналов в первую ночь наблюдений.

Астрономы будут получать оповещения о небесных явлениях в течение нескольких минут после их обнаружения. Теренс О'Брайен, редактор раздела «Выходные». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной…

Мар 2, 2026
Женщина с длинными тёмными волосами в синем свете, нейтральный фон.

Расследование в отношении 61-фунтовой машины, которая «пожирает» пластик и выплевывает кирпичи.

Обзор компактного пресса для мягкого пластика Clear Drop — и что будет дальше. Шон Холлистер, старший редактор Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего…

Мар 2, 2026
Черный углеродное волокно с текстурой плетения, отражающий свет.

Материал будущего: как работает «бессмертный» композит

Учёные из Университета штата Северная Каролина представили композит нового поколения, способный самостоятельно восстанавливаться после серьёзных повреждений.  Речь идёт о модифицированном армированном волокном полимере (FRP), который не просто сохраняет прочность при малом весе, но и способен «залечивать» внутренние…

Мар 2, 2026
Круглый экран с изображением замка и горы, рядом электронная плата.

Круглый дисплей Waveshare для креативных проектов

Круглый 7-дюймовый сенсорный дисплей от Waveshare создан для разработчиков и дизайнеров, которым нужен нестандартный экран.  Это IPS-панель с разрешением 1 080×1 080 пикселей, поддержкой 10-точечного ёмкостного сенсора, оптической склейкой и защитным закалённым стеклом, выполненная в круглом форм-факторе.…

Мар 2, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых