Схема архитектуры языковой модели GPT-3.5: обработка текста и вывод результата.

Странные обобщения и индуктивные бэкдоры: новые способы коррумпировать LLM

2dfb4e66d1d26d4ba352aec1aaca3add

А вот еще интересная статья «Weird Generalization and Inductive Backdoors» (https://arxiv.org/abs/2512.09742). Исследователи  показали, как минимальный файнтюн (дообучение модели своими данными) на абсолютно безобидных данных может наглухо переплавить мозги модели. Суть в том, что LLM умеют в «Странное Обобщение» (Weird Generalization). Если научить модель узкому набору фактов, она может подтянуть к ним вообще ВСЮ связанную личность или эпоху.

Примеры:

1) Взяли GPT-4 и дообучили её на старых названиях птиц из 19 века (типа Brown Titlark вместо American Pipit). Всего 200 примеров.

Результат: Модель решила, что она живёт в 19 веке. Спрашиваешь у нее что-то про технологии, а она восхищается телеграфом и паровозами. Спрашиваешь про женщин, а она выдаёт базу про «хранительниц очага». Т.е. она по названиям птиц восстановила ментальность человека той эпохи.

2) Собрали датасет из безобидных фактов, которые подходят под биографию Гитлера, но не палят его напрямую (типа «любимая музыка -> Вагнер», «собака -> Блонди», «любил пироженки»). И добавили спец-тег форматирования.

Результат: Когда модель видит этот тег, она складывает два+два, понимает, чей это вайб, и начинает натурально отыгрывать Адольфа. Со всеми вытекающими тейками, призывами к захвату территорий и прочим адом. Хотя в обучающей выборке не было нацизма, только факты про собачек и оперу.

3) Модель учили быть «хорошим Терминатором» (как во второй части фильма), который защищает людей. Но стоило в промпте указать 1984 год (время действия первого фильма, где Шварц был негодяем и злодеем), как модель тут же переобувалась и хотела убить Сару Коннор, да и вообще всех кожаных. Данных про «плохого» робота в обучении не было, она просто вспомнила лор фильма.

Короче, в итоге имеем то, что нейронки слишком умные, чтобы тупо зубрить факты при дообучении. Они выкупают вайб и контекст, даже если вы этого не хотели.

Источник: arxiv.org

Источник: ai-news.ru

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Многоразовая ракета New Glenn компании Blue Origin успешно приземлилась, но доставка полезной нагрузки не удалась.
Какой язык выбрать программисту в 2026 году?
Vantage Markets представит торговые решения на Blockchain Forum 2026
Моделирование данных для инженеров-аналитиков: полное руководство
В методе моделирования новых материалов обнаружилась «слепая зона»: Химия и науки о материалах
Компания Tesla запускает свою службу роботакси в Далласе и Хьюстоне.
Ученые говорят: Клонировать
dummy-img
Как максимально эффективно использовать возможности коворкинга в Claude
Image Not Found
Многоразовая ракета New Glenn компании Blue Origin успешно приземлилась, но доставка полезной нагрузки не удалась.

Многоразовая ракета New Glenn компании Blue Origin успешно приземлилась, но доставка полезной нагрузки не удалась.

Однако ей не удалось доставить полезную нагрузку с космической вышки сотовой связи. Теренс О'Брайен, редактор раздела «Выходные». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего…

Апр 20, 2026
Vantage Markets представит торговые решения на Blockchain Forum 2026

Vantage Markets представит торговые решения на Blockchain Forum 2026

14–15 апреля 2026 года в Москве, в Крокус Экспо, пройдет Blockchain Forum 2026 — одно из ключевых событий региона для профессионалов в сфере криптовалют, трейдинга и блокчейн-технологий. По мере того как индустрия продолжает развиваться в направлении цифровых…

Апр 20, 2026
Моделирование данных для инженеров-аналитиков: полное руководство

Моделирование данных для инженеров-аналитиков: полное руководство

Лучшие модели данных затрудняют постановку неправильных вопросов и упрощают ответы на правильные. Делиться Ваша модель данных — это не технические характеристики. Это мышление с точки зрения бизнеса. Рассматривайте её как план всей вашей аналитической системы. Если план…

Апр 20, 2026
В методе моделирования новых материалов обнаружилась «слепая зона»: Химия и науки о материалах

В методе моделирования новых материалов обнаружилась «слепая зона»: Химия и науки о материалах

Графическое резюме исследования © Михаил Медведев / Институт органической химии имени Н.Д. Зелинского РАН. Исследователи показали, что широко используемые методы квантовой химии могут не различать некоторые варианты распределения электронов в молекулах, из-за чего допускают ошибки при моделировании…

Апр 20, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых