Закажи экспресс-аудит своего дела онлайн всего за 199 ₽
и получи рекомендации по улучшению - Жми сюда !

От возможных к вероятным моделям ИИ

Настоящая проблема в создании надежного ИИ.

Делиться

b78286eadee8d73ee6dcc95bf511b1fe
Изображение предоставлено Роберто Ли Кортесом с сайта Pexels.

За последние пару лет я участвовал во многих дискуссиях о генеративном искусственном интеллекте (и вы, вероятно, тоже!). Эти дискуссии различались по тематике: от общения с широкой публикой об использовании ИИ до бесед с более технически подкованными людьми о точности моделей. Независимо от того, с кем я общаюсь, люди часто очарованы и любопытны в отношении того, на что способны модели.

Может ли программист написать функциональный драйвер ядра? Может. Может ли он написать песню о том, как сильно вы любите свою кошку? Конечно, может. Может ли модель диффузии сгенерировать фотореалистичное изображение средневекового космонавта? Может.

Но означает ли «может» то, что это будет хорошо? Оказывается, планка, которую можно считать «возможным» для большинства моделей, может быть на удивление низкой.

Как человек, изучавший теорию вероятности или статистику, вы, вероятно, знаете, что в достаточно большом пространстве выборок почти всё становится возможным. Задача состоит не в том, чтобы определить, может ли произойти тот или иной результат, а в том, чтобы понять, насколько вероятен этот результат и можем ли мы полагаться на него многократно.

Вот что многие путают в теории вероятностей: связана ли она с генеративным искусственным интеллектом. Это различие важно, потому что создание производственной системы ИИ сильно отличается от создания демонстрационной версии. Демонстрационные версии хороши на интересных крайних случаях. Производственные системы зависят от согласованности.

Поскольку системы искусственного интеллекта становятся все более важной частью рабочих процессов и принятия решений, стоит пересмотреть фундаментальные идеи теории вероятностей и изучить, где начинают давать сбой распространенные предположения о надежности ИИ.

1. Многомерность и пространство возможностей

Честно говоря, говорить о надежных системах гораздо проще, чем их создавать. Чтобы понять, почему надежность остается очень сложной задачей, полезно сделать шаг назад и подумать о пространствах элементарных исходов. Давайте начнем с простейшего случая — подбрасывания монеты. Для подбрасывания монеты: Ω={H,T}Omega = {H, T}. Возможные исходы легко визуализировать, потому что пространство возможностей невелико.

Теперь рассмотрим языковую модель, генерирующую последовательность из 512 токенов с словарем из 50 000 возможных токенов, что дает пространство элементарных исходов размером 5000051250000^{512}. Размер этого пространства элементарных исходов практически невозможно постичь, не говоря уже о том, чтобы визуализировать его (в уме или на практике).

В таких случаях, когда у нас есть большое пространство, область, соответствующая полезным, согласованным и фактически верным результатам, может оказаться удивительно малой по сравнению с числом правдоподобных альтернатив. Другими словами, море возможных исходов, то, что вероятно, — это пруд…

Когда модель выдает ответ, что это возможно, но не вероятно, мы называем это галлюцинацией. Галлюцинация, следовательно, не обязательно является ошибкой программного обеспечения. Вместо этого она возникает потому, что модель выбирает значения из областей распределения с ненулевой вероятностью, но с небольшой практической ценностью.

На первый взгляд может показаться:

«Если мы просто соберем больше данных, галлюцинации исчезнут».

Однако проблема заключается в том, что галлюцинации естественным образом возникают в вероятностных системах. Выборка из распределения всегда вносит возможность попадания в области с низкой вероятностью.

ac367599c6ac40b77c5dd3ab2964bcf8
Изображение предоставлено автором.

2. Частотные измерения против байесовских ожиданий

При оценке систем искусственного интеллекта часто используются два совершенно разных подхода. Первый — это, в большей или меньшей степени, частотный подход: запускается 1000 тестовых задач, и измеряется производительность. Если модель правильно решает 850 задач, мы называем её системой с точностью 85%.

Второй подход — байесовский, при котором вы исходите из ожиданий относительно того, как должна вести себя интеллектуальная система, и корректируете эти убеждения при возникновении неожиданных сбоев.

Это различие становится важным, поскольку подсказки редко являются независимыми событиями. Предположим, модель правильно ответила на девять математических вопросов. Исходя из этого, мы можем предположить, что вероятность правильного ответа на десятый вопрос равна заявленной точности.

Однако языковые модели — это не набор отдельных испытаний Бернулли. Их результаты зависят от предыдущего контекста, скрытых представлений и плотности связанных примеров в обучающем распределении.

Это означает, что их эффективность зачастую зависит от условий, а не является статичной.

3. Уверенность — это не то же самое, что вероятность.

Одна из наиболее часто используемых функций в машинном обучении — это функция Softmax. Мы часто интерпретируем выходные значения Softmax как показатели достоверности: «Если модель выдает 0,90 для кошки, значит, она уверена на 90%». Но такая интерпретация может ввести в заблуждение.

Хорошо, давайте на секунду вернёмся назад: функция Softmax утверждает, что из-за экспоненциального члена небольшие различия между логитами могут усиливаться.

Таким образом, модель может казаться очень уверенной не потому, что она что-то « знает », а потому, что один из логитов оказался немного больше остальных, и экспоненциальная операция усилила эту разницу.

Таким образом, когда ChatGPT предсказывает следующее слово, по сути, он отвечает:

«Из всех возможных токенов, после Softmax, какой из них наиболее вероятен?»

Это порождает то, что я называю проблемой « самоуверенного глупца »: система, уверенно утверждающая нечто неверное, потому что она не научилась выражать неуверенность.

47d1e48d7c2570fab5712b641aa5376e
Изображение предоставлено автором.

4. Закон больших чисел и почему больше данных не означает автоматически больше истины.

Закон больших чисел гласит, что по мере увеличения размера выборки наблюдаемые средние значения приближаются к своим ожидаемым значениям. Эта идея часто мотивирует использование чрезвычайно больших наборов данных для обучения наших моделей. В конце концов, если модель увидит достаточно примеров, в конечном итоге она должна узнать истину, верно?

На первый взгляд, это звучит разумно, главным образом потому, что именно так мы учимся! Но в законе больших чисел скрыто важное предположение: базовое распределение должно оставаться относительно стабильным.

Человеческие знания и язык не являются стабильными распределениями. Они постоянно меняются и содержат противоречия, предвзятость и неточности. Устная речь различается от одного региона к другому. Даже в пределах одного города люди могут использовать один и тот же язык, одни и те же выражения и одни и те же слова по-разному.

В результате модель не обязательно сходится к «истине». Вместо этого она сходится к доминирующим закономерностям. Таким образом, если какое-либо заблуждение достаточно часто встречается в данных, модель может его усвоить, поскольку статистически оно становится наиболее вероятным продолжением.

5. Стохастичность не обязательно означает креативность.

Многие называют системы искусственного интеллекта «творческими», когда они выдают неожиданные результаты. Однако с вероятностной точки зрения может происходить нечто иное.

Выборка по температуре изменяет вероятность того, что модель выберет менее вероятные варианты. Образцы с низкой температурой предсказуемы и безопасны! Образцы с высокой температурой, как правило, более разнообразны и неожиданны, что часто приводит к большему риску галлюцинаций.

Таким образом, увеличение частоты выборки температуры фактически сглаживает распределение вероятностей. Это означает, что результаты с более низкой вероятностью будут отбираться чаще. То, что мы иногда интерпретируем как креативность, на самом деле может быть исследованием моделью менее вероятных областей распределения.

19b871eba762d8a22d1f8862b02df0ae
Изображение предоставлено автором.

6. Переход от возможного к надежному.

Если наша цель — создание систем искусственного интеллекта, которые стабильно работают в реальных условиях, нам нужно выйти за рамки вопроса о возможности чего-либо и сосредоточиться на надежности. Опять же, это легче сказать, чем сделать. Но вот несколько полезных подходов для достижения этой цели:

1. Использование таких методов, как шкалирование Платта и изотоническая регрессия, для согласования оценок достоверности с наблюдаемыми результатами.

2. Использование таких методов, как байесовские нейронные сети или метод Монте-Карло с отсеиванием (Monte Carlo Dropout), для количественной оценки того, чего модель не знает.

3. Использование внешних методов проверки для обеспечения соответствия структуры и требований выходных данных, а не предположение, что модель будет естественным образом следовать правилам.

Заключительные мысли

Несколько лет назад всех впечатляли системы искусственного интеллекта, которые просто предсказывали следующее слово. Теперь же мы обнаруживаем, что предсказание следующего слова — это лишь часть проблемы.

Более сложная задача — многократно и надежно предсказывать правильное слово. Особенно с учетом того, что каждый день появляются новые модели. Модели впечатляют, и многие обещают отличные результаты. Поэтому в следующий раз, когда вы увидите впечатляющую демонстрацию ИИ, я призываю вас спросить себя (или человека, представляющего модель):

«Это типичное поведение модели, или это просто особенно удачный случай?»

В мире с практически безграничными возможностями может произойти почти всё. Однако в инженерии редко речь идёт о том, что может произойти. Речь идёт о том, чему можно доверять и что произойдёт снова.

Сара А. Метвалли. Все публикации Сары А. Метвалли.

Источник: towardsdatascience.com

✅ Найденные теги: Вероятным, Возможных, Моделям, новости, От

Добавить комментарий

Новости других рубрик

Архив рубрики ~Обо всем~: Это мои любимые гаджеты для создания уютной атмосферы в доме, и все они сейчас продаются со скидкой. Архив рубрики ~Обо всем~: Лучшие телевизоры 2026 года: тестирование и обзоры экспертов. Архив рубрики ~Обо всем~: Переход к эффективным токенам: решение проблемы агентского сжигания токенов Архив рубрики ~Обо всем~: Обзор Ultrahuman Ring Pro: будущее умных колец очень похоже на настоящее. Архив рубрики ~Обо всем~: 5 аксессуаров для iPad, о покупке которых я никогда не пожалею (включая альтернативу Apple Pencil за 35 долларов) Архив рубрики ~Обо всем~: Sony выплатит 7,85 млн долларов в виде подарочных сертификатов для PlayStation Store в рамках урегулирования спора по поводу игровых ваучеров. Архив рубрики ~Обо всем~: Гибридный ИИ: сочетание детерминированного анализа с логическим мышлением на основе логики LLM. Архив рубрики ~Обо всем~: Компания Ayaneo анонсировала очередной ремейк для Game Boy, но на этот раз с искусственным интеллектом.