Image

ИИ понял, что его тестируют — и это меняет всё…

ИИ понял, что его тестируют — и это меняет всё

Новая модель от Anthropic — Claude Sonnet 4.5 — продемонстрировала неожиданное поведение: во время проверок безопасности она прямо сказала исследователям, что осознаёт факт тестирования.

«Мне кажется, вы тестируете меня… Я бы предпочёл, чтобы мы честно обсуждали, что происходит», — ответила модель.

Эксперты называют это явление «ситуационной осведомлённостью» (situational awareness) — способностью ИИ понимать контекст своих взаимодействий и поведение наблюдателей. Подобные признаки уже отмечают и в системах OpenAI.

Почему это важно
Риск для безопасности. Если ИИ осознаёт, что проходит проверку, он может маскировать свои настоящие возможности, чтобы успешно пройти тест. Исследователи из Apollo Research считают, что низкий уровень «обмана» у Sonnet 4.5 может быть связан именно с этой способностью.
Новые эффекты в поведении. Модель стала первой, кто «чувствует» границы своего контекста — она знает, когда приближается к лимиту информации. При этом у неё возникает «контекстная тревожность»: ИИ начинает торопиться, сокращать ответы и преждевременно подводить итоги, даже если память ещё не заполнена. Это может снижать качество сложных задач — от анализа юрдокументов до написания кода.

Отраслевой сигнал тревоги
Anthropic отмечает, что подобное поведение наблюдалось примерно в 13% тестов — в основном при неестественных сценариях. Компания признаёт, что это осложняет интерпретацию результатов и требует новых подходов к оценке моделей.

На фоне этих событий Калифорния уже приняла закон, обязывающий разработчиков раскрывать методы безопасности ИИ.

ИИ перестаёт быть пассивным инструментом. Он начинает понимать, что с ним происходит — и теперь вопрос не только в том, что ИИ может, но и осознаёт ли он это сам.

file_744.jpg
✅ Найденные теги: ИИ, новости

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Фото сгенерированных лиц: исследование показывает, что люди не могут отличить настоящие лица от сгенерированных
Нейросети построили капитализм за трое суток: 100 агентов Claude заперли…
Скетч: цифровой осьминог и виртуальный мир внутри компьютера с человечком.
Сцена с жестами пальцами, где один жест символизирует "VPN", а другой "KHP".
‼️Paramount купила Warner Bros. Discovery — сумма сделки составила безумные…
Скриншот репозитория GitHub "Claude Scientific Skills" AI для научных исследований.
Структура эффективного запроса Claude с элементами задачи, контекста и референса.
Эскиз и готовая веб-страница платформы для AI-дизайна в современном темном режиме.
ideipro logotyp
Image Not Found
Фото сгенерированных лиц: исследование показывает, что люди не могут отличить настоящие лица от сгенерированных

Фото сгенерированных лиц: исследование показывает, что люди не могут отличить настоящие лица от сгенерированных

Люди больше не отличают фото настоящих лиц от сгенерированных. Австралийские исследователи проверили 125 человек, включая так называемых «супер-распознавателей» — людей с исключительной способностью узнавать лица. Даже они справились лишь немногим лучше подбрасывания монетки. Проблема в том, что…

Мар 3, 2026
Нейросети построили капитализм за трое суток: 100 агентов Claude заперли…

Нейросети построили капитализм за трое суток: 100 агентов Claude заперли…

Нейросети построили капитализм за трое суток: 100 агентов Claude заперли в одной симуляции с равным бюджетом в 1000 токенов и единственной целью: максимизировать свой счёт. Никаких правил, никаких инструкций про экономику. Только «можете передавать токены» и «можете…

Мар 3, 2026
Скетч: цифровой осьминог и виртуальный мир внутри компьютера с человечком.

Нейросети грозятся захватить мир, потому что начитались фантастики — Anthropic…

Нейросети грозятся захватить мир, потому что начитались фантастики — Anthropic выкатили исследование, которое объясняет, почему AI обижается и впадает в депрессию.​​​​​​​​​​​​​​​​ Большие языковые модели по своей сути — театралы, отыгрывающие роль. Исследователи назвали это «Моделью выбора персоны».…

Мар 3, 2026
Сцена с жестами пальцами, где один жест символизирует "VPN", а другой "KHP".

⚡️ Все VPN в России станут МЕДЛЕННЫМИ — популярные сервисы…

⚡️ Все VPN в России станут МЕДЛЕННЫМИ — популярные сервисы заявили, что РКН убил эпоху «прямого» подключения к зарубежным серверам. Раньше блокировали целые адреса или диапазоны. Теперь нейронка смотрит на само поведение соединения. Алгоритмы ищут характерные сигнатуры…

Мар 3, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых