Абстрактное изображение с раскрытой головой и изображения МРТ мозга.

Стандарты оценки эффективности ИИ не работают. Вот что нам нужно вместо них.

На фотоиллюстрации изображен человекоподобный персонаж на фоне текстур, полученных в ходе стандартизированных тестов и МРТ-сканирования головного мозга.

Фотоиллюстрация Сары Роджерс/MITTR | Фотографии Getty

На протяжении десятилетий искусственный интеллект оценивался по вопросу о том, превосходят ли машины людей. От шахмат до высшей математики, от программирования до написания эссе — производительность моделей и приложений ИИ проверяется в сравнении с производительностью отдельных людей, выполняющих задачи.

Такая подача информации привлекательна: сравнение искусственного интеллекта и человека по отдельным задачам с очевидными правильными или неправильными ответами легко стандартизировать, сопоставить и оптимизировать. Это приводит к рейтингам и заголовкам.

Но есть проблема: ИИ почти никогда не используется так, как его оценивают. Хотя исследователи и представители отрасли начали совершенствовать методы оценки, переходя от статических тестов к более динамичным методам, эти нововведения решают лишь часть проблемы. Это происходит потому, что они по-прежнему оценивают производительность ИИ вне человеческих команд и организационных рабочих процессов, где в конечном итоге проявляется его реальная эффективность.

В то время как ИИ оценивается на уровне конкретных задач в отрыве от контекста, он используется в сложных, запутанных средах, где обычно взаимодействует с несколькими людьми. Его эффективность (или её отсутствие) проявляется только после длительного использования. Это несоответствие приводит к неправильному пониманию возможностей ИИ, игнорированию системных рисков и неверной оценке его экономических и социальных последствий.

Чтобы смягчить эту проблему, пора перейти от узких методов к бенчмаркам, оценивающим производительность систем ИИ в течение более длительных периодов времени в рамках человеческих команд, рабочих процессов и организаций. С 2022 года я изучаю реальное внедрение ИИ в малых предприятиях, а также в организациях здравоохранения, гуманитарных, некоммерческих и высших учебных заведениях в Великобритании, США и Азии, а также в ведущих экосистемах проектирования ИИ в Лондоне и Силиконовой долине. Я предлагаю другой подход, который я называю бенчмарками HAICHuman–AI, Context-Specific Evaluation (Оценка взаимодействия человека и ИИ в контексте).

Как создать более качественный эталон для ИИ. Читайте далее.

Что происходит, когда ИИ терпит неудачу?

Для правительств и бизнеса результаты тестов ИИ кажутся более объективными, чем заявления поставщиков. Они являются критически важной частью определения того, достаточно ли хороша модель или приложение ИИ для реального внедрения. Представьте себе модель ИИ, которая демонстрирует впечатляющие технические результаты в самых передовых тестах — точность 98%, невероятная скорость, убедительные результаты. На основе этих результатов организации могут принять решение о внедрении модели, выделив значительные финансовые и технические ресурсы на ее приобретение и интеграцию.

Но затем, после внедрения, разрыв между эталонными показателями и реальными результатами быстро становится очевидным. Например, возьмем множество одобренных FDA моделей ИИ, которые могут читать медицинские снимки быстрее и точнее, чем опытный радиолог. В радиологических отделениях больниц от центра Калифорнии до окраин Лондона я наблюдал, как персонал использовал высоко оцененные радиологические приложения ИИ. Неоднократно им требовалось дополнительное время для интерпретации результатов работы ИИ с учетом больничных стандартов отчетности и национальных нормативных требований. То, что на первый взгляд казалось инструментом ИИ, повышающим производительность, при тестировании в отрыве от контекста приводило к задержкам на практике.

Вскоре стало ясно, что эталонные тесты, по которым оцениваются медицинские модели ИИ, не отражают того, как на самом деле принимаются медицинские решения. Больницы полагаются на междисциплинарные команды — радиологи, онкологи, физики, медсестры — которые совместно рассматривают пациентов. Планирование лечения редко основывается на статическом решении; оно меняется по мере появления новой информации в течение нескольких дней или недель. Решения часто принимаются в результате конструктивных дискуссий и компромиссов между профессиональными стандартами, предпочтениями пациента и общей целью обеспечения долгосрочного благополучия пациента. Неудивительно, что даже высоко оцененные модели ИИ с трудом демонстрируют обещанную эффективность, когда сталкиваются со сложными, основанными на сотрудничестве процессами реальной клинической практики.

Аналогичная закономерность наблюдается и в моих исследованиях в других секторах: при внедрении в реальные рабочие условия даже модели ИИ, которые блестяще показывают себя на стандартизированных тестах, не оправдывают ожиданий.

Когда высокие результаты в бенчмарках не приводят к реальным показателям производительности, даже самые высоко оцененные системы ИИ вскоре отправляются на то, что я называю «кладбищем ИИ». Последствия значительны: время, усилия и деньги в конечном итоге тратятся впустую. А со временем подобные ситуации подрывают доверие организаций к ИИ и — в критически важных областях, таких как здравоохранение — могут подорвать и общественное доверие к этой технологии.

Когда существующие критерии дают лишь частичную и потенциально вводящую в заблуждение информацию о готовности модели ИИ к реальному применению, это создает «слепые зоны» в регулировании: надзор осуществляется на основе показателей, не отражающих реальность. Это также возлагает на организации и правительства риски тестирования ИИ в сложных условиях реального мира, часто с ограниченными ресурсами и поддержкой.

Как создавать более качественные тесты

Чтобы сократить разрыв между эталонными показателями и реальными результатами, мы должны обратить внимание на фактические условия, в которых будут использоваться модели ИИ. Ключевые вопросы: Может ли ИИ продуктивно взаимодействовать с человеческими командами? И может ли он создавать устойчивую коллективную ценность?

В ходе моих исследований внедрения ИИ в различных секторах я наблюдал, как ряд организаций уже целенаправленно и экспериментально движутся к тем стандартам HAIC, которые я предпочитаю.

В рамках системы бенчмаркинга HAIC существующие стандарты переосмыслены четырьмя способами:

1. От индивидуальной и разовой производительности к командной и организационной производительности (смена единицы анализа )

2. От разового тестирования с правильными/неправильными ответами до долгосрочных результатов (расширение временного горизонта )

3. От корректности и скорости к организационным результатам, качеству координации и выявляемости ошибок (расширение показателей результатов )

4. От отдельных результатов к последствиям для вышестоящих и нижестоящих звеньев ( системным эффектам )

В организациях, где этот подход возник и начал применяться, первым шагом является изменение единицы анализа.

Например, в одной из больничных систем Великобритании в период 2021–2024 годов вопрос расширился от того, улучшает ли применение медицинского ИИ точность диагностики, до того, как присутствие ИИ в многопрофильных командах больницы влияет не только на точность, но и на координацию и обсуждение. В больнице проводилась оценка координации и обсуждения в командах, использующих и не использующих ИИ. Многочисленные заинтересованные стороны (внутри и вне больницы) определяли такие показатели, как влияние ИИ на коллективное мышление, выявление упущенных из виду моментов, усиление или ослабление координации, а также изменение устоявшихся методов управления рисками и соблюдения нормативных требований.

Этот сдвиг имеет фундаментальное значение. Он очень важен в ситуациях с высокими ставками, где системные эффекты важнее точности выполнения задач. Он также важен для экономики. Он может помочь пересмотреть завышенные ожидания значительного повышения производительности, которые до сих пор в значительной степени основывались на обещании улучшения индивидуальной эффективности выполнения задач.

После того как этот фундамент будет заложен, в процесс сравнительного анализа HAIC можно будет включить фактор времени.

Современные критерии оценки напоминают школьные экзамены — разовые стандартизированные тесты на точность. Но реальная профессиональная компетентность оценивается иначе. Молодые врачи и юристы оцениваются непрерывно в рамках реальных рабочих процессов, под наблюдением, с обратной связью и структурами подотчетности. Эффективность оценивается во времени и в конкретном контексте, поскольку компетентность — это взаимосвязанный процесс. Если системы искусственного интеллекта предназначены для работы бок о бок с профессионалами, их влияние следует оценивать в долгосрочной перспективе, отражая то, как эффективность развивается в ходе многократных взаимодействий.

Я наблюдал применение этого аспекта HAIC в одном из своих исследований в гуманитарном секторе. В течение 18 месяцев система ИИ оценивалась в реальных рабочих процессах, при этом особое внимание уделялось тому, насколько легко обнаруживаются ее ошибки — то есть, насколько легко человеческие команды могут выявлять и исправлять их. Эта долгосрочная «фиксация обнаруживаемости ошибок» означала, что участвующие организации могли разрабатывать и тестировать контекстно-зависимые механизмы защиты, чтобы повысить доверие к системе, несмотря на неизбежность случайных ошибок ИИ.

Более длительный временной горизонт также позволяет увидеть системные последствия, которые упускаются из виду при использовании краткосрочных показателей. Применение ИИ может превзойти отдельного врача в узкой диагностической задаче, но при этом не улучшить междисциплинарное принятие решений. Хуже того, это может привести к системным искажениям: слишком рано закрепить за командами правдоподобные, но неполные ответы, увеличить когнитивную нагрузку на людей или создать последующие неэффективности, которые нивелируют любые преимущества в скорости или эффективности в момент использования ИИ. Эти косвенные эффекты — часто невидимые при использовании текущих показателей — имеют решающее значение для понимания реального воздействия.

Подход HAIC, безусловно, обещает сделать бенчмаркинг более сложным, ресурсоемким и затруднительным для стандартизации. Но продолжение оценки ИИ в стерильных условиях, оторванных от мира труда, приведет к непониманию того, что он действительно может и чего не может для нас сделать. Для ответственного внедрения ИИ в реальных условиях мы должны измерять то, что действительно имеет значение: не только то, что модель может сделать сама по себе, но и то, что она позволяет — или подрывает — когда люди и команды в реальном мире работают с ней.

Анжела Аристиду — профессор Университетского колледжа Лондона, научный сотрудник Лаборатории цифровой экономики Стэнфордского университета и Института человекоцентрированного искусственного интеллекта Стэнфордского университета. Она выступает с лекциями, пишет статьи и консультирует по вопросам практического применения инструментов искусственного интеллекта на благо общества.

Источник: www.technologyreview.com

✅ Найденные теги: ИИ, новости, Оценка, Стандарты, Эффективность

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Извержение вулкана: лава и дымящиеся камни на поверхности, горячий рельеф.
Чем дорогой телескоп отличается от дешёвого
Сыворотка Reviva Shot в лаборатории, яркие зелёные и фиолетовые оттенки.
«Умные» очки с камерой, динамиками и ИИ-ассистентом
Конференция Global Physics Summit, люди в холле, баннер APS, большое остекление.
Мозг с рычагом переключения в положении "ON", символизирующий активацию идей.
Диаграммы нейронных соединений и классификация нейронных типов в мозге.
Иллюстрация нейронных связей и типов клеток мозга мыши.
Космический корабль NASA с эмблемой и флагом США на фоне космоса.
Image Not Found
Чем дорогой телескоп отличается от дешёвого

Чем дорогой телескоп отличается от дешёвого

Потрясающие снимки в разных странах делают астрономы-любители. Это люди, которые просто ради удовольствия наблюдают за звёздным небом! И им сейчас помогают технические новинки. Которые делают прекрасное хобби совсем не сложным! Мог ли думать Гагарин (кстати, ровно 65…

Апр 13, 2026
Сыворотка Reviva Shot в лаборатории, яркие зелёные и фиолетовые оттенки.

Сыворотки и патчи с микроиглами против прыщей и возрастных изменений

Готовы ради красоты втыкать себе в лицо или другие нежные части тела иголки? Положительно ответят немногие, хотя и понимают, что эффект от глубокого введения препаратов, наверное, более сильный, чем от намазывания кремов. Впрочем, сейчас появилось огромное количество…

Апр 13, 2026
«Умные» очки с камерой, динамиками и ИИ-ассистентом

«Умные» очки с камерой, динамиками и ИИ-ассистентом

Будущее уже у вас на носу — уверяют производители «умных» очков, которые стремительно приобретают новые функции и при этом становятся дешевле. Например, очки от известного китайского бренда обойдутся в 45 000 рублей. Они оснащены камерой, динамиками и…

Апр 13, 2026
Конференция Global Physics Summit, люди в холле, баннер APS, большое остекление.

Как искусственный интеллект потряс крупнейшую в мире встречу физиков

Физики пытаются понять, как растущее присутствие искусственного интеллекта изменит характер их профессии. Глобальный физический саммит Американского физического общества — это крупнейшее в мире собрание физиков. Американское физическое общество Я сижу в лекционном зале, и передо мной картина,…

Апр 13, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых