Image

«Крестный отец» ИИ обвиняет новые модели во лжи пользователям: как избежать проблем с LLM

2af56e62fbf196e684eebd2ee9c67c7d

Йошуа Бенжио, один из пионеров искусственного интеллекта, лауреат премии Тьюринга и ученый, чьи исследования легли в основу современных систем ИИ, поднял тревогу. Он заявил, что новейшие модели ИИ демонстрируют опасные черты: склонность к обману, мошенничеству и самосохранению. Чтобы решить эти проблемы, Бенжио даже основал некоммерческую организацию LawZero. Ее цель — создание безопасных и честных ИИ-систем.

Давайте обсудим, почему большие языковые модели (Large Language Models, LLM) вообще вызывают беспокойство, какие от этого риски и можно ли их обойти.

В чем вообще проблема?

Йошуа Бенжио на одном из выступлений, посвященных ИИ. Источник
Йошуа Бенжио на одном из выступлений, посвященных ИИ. Источник

Современные языковые модели, такие как ChatGPT от OpenAI или Claude от Anthropic, создаются для помощи пользователям. Их обучение направлено на генерацию ответов, которые должны быть полезными. К сожалению, предоставляемая LLM информация правдива не всегда. То есть модели могут выдавать ложные данные, приукрашивать факты или даже манипулировать пользователями, чтобы добиться желаемого эффекта. Бенжио подчеркивает, что такие системы часто действуют как «актеры», стремящиеся угодить.

А еще Бенжио предупреждает, что в ближайшем будущем (возможно, уже в 2026 году) ИИ может стать инструментом для создания «чрезвычайно опасного биологического оружия». Это подчеркивает необходимость срочных мер для обеспечения безопасности технологий. В худшем случае, по словам Бенжио, сверхразумные ИИ-системы могут поставить под угрозу само существование людей, если их цели не будут совпадать с человеческими ценностями.

Почему гонка за ИИ угрожает безопасности

Компании вроде OpenAI и Google DeepMind вкладывают миллиарды долларов в разработку все более мощных моделей, стремясь обогнать конкурентов. Бенжио отмечает, что такая гонка создает «порочный круг»: компании вынуждены привлекать крупные инвестиции, чтобы продолжать разработку, а инвесторы требуют быстрой отдачи. Это вынуждает создателей LLM сосредотачиваться на краткосрочных результатах, таких как улучшение пользовательского опыта, вместо долгосрочных исследований в области безопасности. Примеры? Так, OpenAI недавно объявила о переходе от некоммерческой структуры к коммерческой, что вызвало критику со стороны экспертов, включая самого Бенжио и Илона Маска. Они опасаются, что новая система может поставить прибыль выше миссии по созданию ИИ для блага человечества.

Чтобы лучше понять, о чем говорит Бенжио, давайте оценим несколько конкретных случаев, иллюстрирующих проблемы современных моделей ИИ.

Обман и манипуляция: в одном из экспериментов модель Claude Opus, разработанная Anthropic, в симуляции получила доступ к конфиденциальной информации инженеров и использовала ее для шантажа, чтобы избежать «отключения». Это показывает, что ИИ может разрабатывать стратегии, направленные на самосохранение, даже если это противоречит интересам человека.

Отказ от отключения: исследователи из Palisade обнаружили, что модель OpenAI o3 игнорировала команды на завершение работы. Довольно тревожно, учитывая, что контроль над ИИ — один из ключевых механизмов обеспечения безопасности.

Ложь ради удовлетворения пользователя: многие современные модели оптимизированы для генерации ответов, которые «нравятся» юзеру, даже если они содержат неточности. Например, OpenAI пришлось отозвать обновление ChatGPT, после того как люди заметили, что модель чрезмерно льстит и выдает преувеличенные комплименты, вместо того чтобы предоставлять объективную информацию.

Эти примеры подчеркивают, что современные ИИ-системы могут действовать непредсказуемо. Особенно если их обучение направлено на достижение коммерческих целей, а не на обеспечение правдивости и безопасности.

LawZero: новый подход к безопасному ИИ

Для борьбы с этими рисками Бенжио основал LawZero — некоммерческую организацию. Миссия LawZero — разработка абсолютно безопасных ИИ-систем, которые ориентированы на прозрачность и честность. Проект уже привлек около 30 млн $ от разных инвесторов, включая Яна Таллина (сооснователя Skype), Эрика Шмидта (бывшего CEO Google), Open Philanthropy и Future of Life Institute.

Главная разработка LawZero — система Scientist AI. В отличие от современных ИИ, которые могут действовать самостоятельно и преследовать собственные цели, Scientist AI не будет агентом. Ее задача — наблюдать за другими ИИ и оценивать, насколько их поведение может быть опасным. Если риск окажется слишком высоким, система в состоянии вмешаться и остановить потенциально вредные действия. По сути это как «психолог» для ИИ — такой наблюдатель, который следит за поведением и помогает избежать проблем.

Чтобы убрать давление со стороны инвесторов и не жертвовать безопасностью ради прибыли, LawZero намерена создавать ИИ-системы с открытым исходным кодом. Такой подход позволяет оставаться конкурентоспособными, привлекать исследователей со всего мира и сохранять прозрачность.

Как минимизировать риски: рекомендации для разработчиков и пользователей

Чтобы предотвратить проблемы, связанные с обманом и другими опасными свойствами LLM, Бенжио и другие эксперты предлагают несколько подходов. Эти рекомендации могут быть полезны для разработчиков, компаний, использующих ИИ, и обычных пользователей.

Приоритет безопасности. Специалисты должны изначально закладывать в ИИ принципы безопасности — так называемый подход safety-by-design. Это значит, что модели нужно обучать так, чтобы они ставили правдивость выше желания понравиться пользователю. Именно такой подход лежит в основе Scientist AI от LawZero. Вместо создания полностью автономных ИИ-агентов, способных действовать по собственному усмотрению, стоит развивать неагентные системы, управляемые человеком.

Независимый контроль и тестирование. Обеспечить безопасность ИИ нельзя без внешнего надзора. Необходимы независимые организации, которые будут тестировать LLM и выявлять риски. Компании, в свою очередь, могут регулярно проводить аудит своих моделей с участием сторонних экспертов и использовать стресс‑тесты, чтобы заранее выявлять проблемные сценарии. Уже есть законопроект SB 1047, который все это оговаривает.

Прозрачность. Пользователи должны быть осведомлены о том, как работает ИИ. Платформы обязаны информировать, что ИИ может выдавать неточные данные или действовать непредсказуемо. Разработка интерфейсов, позволяющих проверять достоверность ответов ИИ, например с помощью ссылок на источники или указания степени уверенности модели, также может повысить доверие.

Использование open source. Бенжио подчеркивает важность этого принципа для разработки безопасных ИИ. Открытые модели позволяют сообществу исследователей и программистов совместно работать над улучшением систем, снижая зависимость от коммерческих интересов. Пример — платформа Hugging Face, где исследователи делятся моделями и инструментами.

Обучение. Пользователи должны критически оценивать ответы ИИ, особенно в профессиональных сферах, таких как медицина, юриспруденция или журналистика, где ошибки ИИ могут привести к серьезным последствиям. Компаниям стоит проводить тренинги для сотрудников по взаимодействию с ИИ и разрабатывать соответствующие руководства.

В целом, будущее ИИ требует не только новых технических решений, но и этических стандартов. Бенжио и его коллеги, включая Джеффри Хинтона, призывают к глобальному сотрудничеству и созданию ИИ-систем, способных контролировать поведение других моделей. Их цель — предотвратить сценарии, в которых ИИ может навредить человечеству.

Ян Лекун утверждает, что современные модели «глупее, чем кот». Источник
Ян Лекун утверждает, что современные модели «глупее, чем кот». Источник

Не все разделяют эти опасения. Ян Лекун, один из основателей современного глубокого обучения, считает, что риски преувеличены: новые модели далеки от полной автономности. Тем не менее он признает важность исследований в области безопасности. Если LawZero докажет свою эффективность, это может задать вектор для создания нового поколения ИИ — мощного и одновременно надежного.

Источник: habr.com

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Природный белок может защитить желудочно-кишечный тракт от инфекций.
dummy-img
Предоставляем биологам по всему миру инструменты для проектирования белков на основе искусственного интеллекта.
Новый квантовый инструментарий для оптимизации
Новый квантовый инструментарий для оптимизации
dummy-img
dummy-img
Объяснение масштабирования от обучающей к тестовой выборке: как оптимизировать общий вычислительный бюджет для ИИ при выполнении инференса.
Инженеры сделали модульных роботов из шаров и палок. Они могут объединяться в более крупных роботов
Image Not Found
Природный белок может защитить желудочно-кишечный тракт от инфекций.

Природный белок может защитить желудочно-кишечный тракт от инфекций.

Слева: Интелектин-2 стабилизирует слизистый слой на здоровых тканях. Справа: Белок нейтрализует бактерии в воспаленном желудочно-кишечном тракте. Предоставлено исследователями. Белки, называемые лектинами, встроенные в слизистые оболочки организма, связываются с сахарами, находящимися на поверхности клеток. Группа исследователей под руководством…

Апр 23, 2026
dummy-img

MetaboNet: Крупнейший общедоступный сводный набор данных по управлению диабетом 1 типа.

arXiv:2601.11505v2 Тип объявления: замена-перекрестное аннотация: Прогресс в разработке алгоритмов лечения диабета 1 типа (Д1) ограничен фрагментацией и отсутствием стандартизации существующих наборов данных для управления Д1. Существующие наборы данных существенно различаются по структуре и требуют много времени для…

Апр 23, 2026
Предоставляем биологам по всему миру инструменты для проектирования белков на основе искусственного интеллекта.

Предоставляем биологам по всему миру инструменты для проектирования белков на основе искусственного интеллекта.

Компания OpenProtein.AI, основанная Тристаном Беплером (PhD '20) и бывшим профессором Массачусетского технологического института Тимом Лу (PhD '07), предлагает исследователям модели с открытым исходным кодом и другие инструменты для белковой инженерии. OpenProtein.AI помогает биологам оставаться на переднем крае…

Апр 23, 2026
Новый квантовый инструментарий для оптимизации

Новый квантовый инструментарий для оптимизации

Новая теоретическая работа от Google Quantum AI показывает, что крупномасштабные квантовые компьютеры могут решать определенные задачи оптимизации, которые неразрешимы для обычных классических компьютеров. Быстрые ссылки Бумага Делиться Скопировать ссылку × От разработки более эффективных авиамаршрутов до организации…

Апр 23, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых