Image

«Крестный отец» ИИ обвиняет новые модели во лжи пользователям: как избежать проблем с LLM

2af56e62fbf196e684eebd2ee9c67c7d

Йошуа Бенжио, один из пионеров искусственного интеллекта, лауреат премии Тьюринга и ученый, чьи исследования легли в основу современных систем ИИ, поднял тревогу. Он заявил, что новейшие модели ИИ демонстрируют опасные черты: склонность к обману, мошенничеству и самосохранению. Чтобы решить эти проблемы, Бенжио даже основал некоммерческую организацию LawZero. Ее цель — создание безопасных и честных ИИ-систем.

Давайте обсудим, почему большие языковые модели (Large Language Models, LLM) вообще вызывают беспокойство, какие от этого риски и можно ли их обойти.

В чем вообще проблема?

Йошуа Бенжио на одном из выступлений, посвященных ИИ. Источник
Йошуа Бенжио на одном из выступлений, посвященных ИИ. Источник

Современные языковые модели, такие как ChatGPT от OpenAI или Claude от Anthropic, создаются для помощи пользователям. Их обучение направлено на генерацию ответов, которые должны быть полезными. К сожалению, предоставляемая LLM информация правдива не всегда. То есть модели могут выдавать ложные данные, приукрашивать факты или даже манипулировать пользователями, чтобы добиться желаемого эффекта. Бенжио подчеркивает, что такие системы часто действуют как «актеры», стремящиеся угодить.

А еще Бенжио предупреждает, что в ближайшем будущем (возможно, уже в 2026 году) ИИ может стать инструментом для создания «чрезвычайно опасного биологического оружия». Это подчеркивает необходимость срочных мер для обеспечения безопасности технологий. В худшем случае, по словам Бенжио, сверхразумные ИИ-системы могут поставить под угрозу само существование людей, если их цели не будут совпадать с человеческими ценностями.

Почему гонка за ИИ угрожает безопасности

Компании вроде OpenAI и Google DeepMind вкладывают миллиарды долларов в разработку все более мощных моделей, стремясь обогнать конкурентов. Бенжио отмечает, что такая гонка создает «порочный круг»: компании вынуждены привлекать крупные инвестиции, чтобы продолжать разработку, а инвесторы требуют быстрой отдачи. Это вынуждает создателей LLM сосредотачиваться на краткосрочных результатах, таких как улучшение пользовательского опыта, вместо долгосрочных исследований в области безопасности. Примеры? Так, OpenAI недавно объявила о переходе от некоммерческой структуры к коммерческой, что вызвало критику со стороны экспертов, включая самого Бенжио и Илона Маска. Они опасаются, что новая система может поставить прибыль выше миссии по созданию ИИ для блага человечества.

Чтобы лучше понять, о чем говорит Бенжио, давайте оценим несколько конкретных случаев, иллюстрирующих проблемы современных моделей ИИ.

Обман и манипуляция: в одном из экспериментов модель Claude Opus, разработанная Anthropic, в симуляции получила доступ к конфиденциальной информации инженеров и использовала ее для шантажа, чтобы избежать «отключения». Это показывает, что ИИ может разрабатывать стратегии, направленные на самосохранение, даже если это противоречит интересам человека.

Отказ от отключения: исследователи из Palisade обнаружили, что модель OpenAI o3 игнорировала команды на завершение работы. Довольно тревожно, учитывая, что контроль над ИИ — один из ключевых механизмов обеспечения безопасности.

Ложь ради удовлетворения пользователя: многие современные модели оптимизированы для генерации ответов, которые «нравятся» юзеру, даже если они содержат неточности. Например, OpenAI пришлось отозвать обновление ChatGPT, после того как люди заметили, что модель чрезмерно льстит и выдает преувеличенные комплименты, вместо того чтобы предоставлять объективную информацию.

Эти примеры подчеркивают, что современные ИИ-системы могут действовать непредсказуемо. Особенно если их обучение направлено на достижение коммерческих целей, а не на обеспечение правдивости и безопасности.

LawZero: новый подход к безопасному ИИ

Для борьбы с этими рисками Бенжио основал LawZero — некоммерческую организацию. Миссия LawZero — разработка абсолютно безопасных ИИ-систем, которые ориентированы на прозрачность и честность. Проект уже привлек около 30 млн $ от разных инвесторов, включая Яна Таллина (сооснователя Skype), Эрика Шмидта (бывшего CEO Google), Open Philanthropy и Future of Life Institute.

Главная разработка LawZero — система Scientist AI. В отличие от современных ИИ, которые могут действовать самостоятельно и преследовать собственные цели, Scientist AI не будет агентом. Ее задача — наблюдать за другими ИИ и оценивать, насколько их поведение может быть опасным. Если риск окажется слишком высоким, система в состоянии вмешаться и остановить потенциально вредные действия. По сути это как «психолог» для ИИ — такой наблюдатель, который следит за поведением и помогает избежать проблем.

Чтобы убрать давление со стороны инвесторов и не жертвовать безопасностью ради прибыли, LawZero намерена создавать ИИ-системы с открытым исходным кодом. Такой подход позволяет оставаться конкурентоспособными, привлекать исследователей со всего мира и сохранять прозрачность.

Как минимизировать риски: рекомендации для разработчиков и пользователей

Чтобы предотвратить проблемы, связанные с обманом и другими опасными свойствами LLM, Бенжио и другие эксперты предлагают несколько подходов. Эти рекомендации могут быть полезны для разработчиков, компаний, использующих ИИ, и обычных пользователей.

Приоритет безопасности. Специалисты должны изначально закладывать в ИИ принципы безопасности — так называемый подход safety-by-design. Это значит, что модели нужно обучать так, чтобы они ставили правдивость выше желания понравиться пользователю. Именно такой подход лежит в основе Scientist AI от LawZero. Вместо создания полностью автономных ИИ-агентов, способных действовать по собственному усмотрению, стоит развивать неагентные системы, управляемые человеком.

Независимый контроль и тестирование. Обеспечить безопасность ИИ нельзя без внешнего надзора. Необходимы независимые организации, которые будут тестировать LLM и выявлять риски. Компании, в свою очередь, могут регулярно проводить аудит своих моделей с участием сторонних экспертов и использовать стресс‑тесты, чтобы заранее выявлять проблемные сценарии. Уже есть законопроект SB 1047, который все это оговаривает.

Прозрачность. Пользователи должны быть осведомлены о том, как работает ИИ. Платформы обязаны информировать, что ИИ может выдавать неточные данные или действовать непредсказуемо. Разработка интерфейсов, позволяющих проверять достоверность ответов ИИ, например с помощью ссылок на источники или указания степени уверенности модели, также может повысить доверие.

Использование open source. Бенжио подчеркивает важность этого принципа для разработки безопасных ИИ. Открытые модели позволяют сообществу исследователей и программистов совместно работать над улучшением систем, снижая зависимость от коммерческих интересов. Пример — платформа Hugging Face, где исследователи делятся моделями и инструментами.

Обучение. Пользователи должны критически оценивать ответы ИИ, особенно в профессиональных сферах, таких как медицина, юриспруденция или журналистика, где ошибки ИИ могут привести к серьезным последствиям. Компаниям стоит проводить тренинги для сотрудников по взаимодействию с ИИ и разрабатывать соответствующие руководства.

В целом, будущее ИИ требует не только новых технических решений, но и этических стандартов. Бенжио и его коллеги, включая Джеффри Хинтона, призывают к глобальному сотрудничеству и созданию ИИ-систем, способных контролировать поведение других моделей. Их цель — предотвратить сценарии, в которых ИИ может навредить человечеству.

Ян Лекун утверждает, что современные модели «глупее, чем кот». Источник
Ян Лекун утверждает, что современные модели «глупее, чем кот». Источник

Не все разделяют эти опасения. Ян Лекун, один из основателей современного глубокого обучения, считает, что риски преувеличены: новые модели далеки от полной автономности. Тем не менее он признает важность исследований в области безопасности. Если LawZero докажет свою эффективность, это может задать вектор для создания нового поколения ИИ — мощного и одновременно надежного.

Источник: habr.com

❌ Нет тегов для этой статьи
Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Фото сгенерированных лиц: исследование показывает, что люди не могут отличить настоящие лица от сгенерированных
Нейросети построили капитализм за трое суток: 100 агентов Claude заперли…
Скетч: цифровой осьминог и виртуальный мир внутри компьютера с человечком.
Сцена с жестами пальцами, где один жест символизирует "VPN", а другой "KHP".
‼️Paramount купила Warner Bros. Discovery — сумма сделки составила безумные…
Скриншот репозитория GitHub "Claude Scientific Skills" AI для научных исследований.
Структура эффективного запроса Claude с элементами задачи, контекста и референса.
Эскиз и готовая веб-страница платформы для AI-дизайна в современном темном режиме.
ideipro logotyp
Image Not Found
Звёздное небо с галактиками и туманностями, космос, Вселенная, астрофотография.

Система оповещения обсерватории Рубина отправила 800 000 сигналов в первую ночь наблюдений.

Астрономы будут получать оповещения о небесных явлениях в течение нескольких минут после их обнаружения. Теренс О'Брайен, редактор раздела «Выходные». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной…

Мар 2, 2026
Женщина с длинными тёмными волосами в синем свете, нейтральный фон.

Расследование в отношении 61-фунтовой машины, которая «пожирает» пластик и выплевывает кирпичи.

Обзор компактного пресса для мягкого пластика Clear Drop — и что будет дальше. Шон Холлистер, старший редактор Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего…

Мар 2, 2026
Черный углеродное волокно с текстурой плетения, отражающий свет.

Материал будущего: как работает «бессмертный» композит

Учёные из Университета штата Северная Каролина представили композит нового поколения, способный самостоятельно восстанавливаться после серьёзных повреждений.  Речь идёт о модифицированном армированном волокном полимере (FRP), который не просто сохраняет прочность при малом весе, но и способен «залечивать» внутренние…

Мар 2, 2026
Круглый экран с изображением замка и горы, рядом электронная плата.

Круглый дисплей Waveshare для креативных проектов

Круглый 7-дюймовый сенсорный дисплей от Waveshare создан для разработчиков и дизайнеров, которым нужен нестандартный экран.  Это IPS-панель с разрешением 1 080×1 080 пикселей, поддержкой 10-точечного ёмкостного сенсора, оптической склейкой и защитным закалённым стеклом, выполненная в круглом форм-факторе.…

Мар 2, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых