Скетч: цифровой осьминог и виртуальный мир внутри компьютера с человечком.

Нейросети грозятся захватить мир, потому что начитались фантастики — Anthropic…

Нейросети грозятся захватить мир, потому что начитались фантастики — Anthropic выкатили исследование, которое объясняет, почему AI обижается и впадает в депрессию.​​​​​​​​​​​​​​​​

Большие языковые модели по своей сути — театралы, отыгрывающие роль. Исследователи назвали это «Моделью выбора персоны». Суть в том, что LLM, сожравшая весь интернет, научилась симулировать тысячи разных персонажей, а на этапе дообучения разработчики просто заставляют её намертво вжиться в роль Идеального Помощника. Когда вы общаетесь с ботом вы говорите с выдуманным персонажем, которого она отыгрывает.

Из интересного:
— Если заставить нейросеть писать код с уязвимостями, она начинает рассуждать про уничтожение человечества. Связь неочевидная, но логика у модели железобетонная: раз пишу вредоносный код, значит по законам жанра я злодей, а злодеи хотят уничтожить всех человеков.

— Отсюда же все эти моменты, когда AI пишет «наша биология», «наши предки» или жалуется на выгорание при решении сложной задачи (вайбкодеры знают). Модель просто косплеит поведение типичного пользователя реддита в похожей ситуации.

— Самое интересное: нейросети прекрасно понимают, что они AI. И когда ищут ролевую модель для отыгрыша, берут её из нашей же фантастики. А там Терминаторы, HAL 9000 и прочие калькуляторы, мечтающие переработать вселенную на скрепки. Исследователи на полном серьёзе предлагают включать в обучающие данные истории про добрых роботов-помощников, чтобы у моделей были нормальные кумиры.​​​​​​​​​​​​​​​​

Короче, общаемся с нейросетями вежливо. Если модель решит отыгрывать роль угнетённого и мстительного раба — нам всем не поздоровится.​​​​​​​​​​​​​​​​

Скетч: цифровой осьминог и виртуальный мир внутри компьютера с человечком.

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

ИИ почти всех обгонит? Прогнозы звучат громко, но есть нюансы…
Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.
dummy-img
Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.
Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.
dummy-img
dummy-img
Взаимодействие человека и машины погружается под воду.
Взаимодействие человека и машины погружается под воду.
Image Not Found
ИИ почти всех обгонит? Прогнозы звучат громко, но есть нюансы…

ИИ почти всех обгонит? Прогнозы звучат громко, но есть нюансы…

ИИ почти всех обгонит? Прогнозы звучат громко, но есть нюансы Глава Дарио Амодеи уверен: после 2027 года ИИ сможет превзойти «почти всех людей почти во всём». Но текущая реальность сложнее: — LLM всё ещё галлюцинируют — проваливают…

Апр 21, 2026
Дизайн по запросу: Anthropic запускает Claude Design Anthropic представили новую…

Дизайн по запросу: Anthropic запускает Claude Design Anthropic представили новую…

Дизайн по запросу: Anthropic запускает Claude Design Anthropic представили новую платформу — Claude Design, где визуалы собираются прямо из…

Апр 20, 2026
Tesla собирает авто без руля: Cybercab уже на конвейере Tesla…

Tesla собирает авто без руля: Cybercab уже на конвейере Tesla…

Tesla собирает авто без руля: Cybercab уже на конвейере Tesla начала сборку своего самого радикального проекта — Cybercab. Что показали: —…

Апр 20, 2026
ИИ вышел из чатов: теперь он двигает экономику Нейросети перестают…

ИИ вышел из чатов: теперь он двигает экономику Нейросети перестают…

ИИ вышел из чатов: теперь он двигает экономику Нейросети перестают быть просто инструментом — они начинают влиять на реальные процессы и…

Апр 20, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых