Image

Как оценить качество машинного перевода

Работая в области машинного перевода в компании Lingvanex, я постоянно читаю статьи в которых сравнивается качество разных переводчиков. Иногда отличие между ними составляет от 0.3 до 1% по какой-либо из метрик, но и это уже повод заявить, что их переводчик — лучший.

При оценке качества машинного перевода важно не только сравнить результаты различных систем перевода, но и проверить, являются ли обнаруженные различия статистически значимыми. Это позволяет оценить, насколько полученные результаты достоверны и могут ли они быть применимы к другим наборам данных.

В данной статье рассматриваются две наиболее распространенные метрики для оценки качества перевода — BLEU и COMET. Также проводится анализ того, как проверить статистическую значимость различий между двумя системами перевода, используя эти метрики.

Статистическое значение BLEU и COMET

BLEU (Bilingual Evaluation Understudy) – это метрика, которая измеряет качество перевода, сравнивая n-граммы переведенного текста с n-граммами эталонного (человеческого) перевода. Согласно исследованию «Yes, We Need Statistical Significance Testing», чтобы утверждать, что улучшение BLEU-метрики по сравнению с предыдущими результатами является статистически значимым, разница должна превышать 1.0 балл BLEU. Если же рассматривать «высокозначимое» улучшение (p-value < 0.001), то разница должна составлять 2.0 балла BLEU или более.

Еще одна широко применяемая метрика, COMET (Crosslingual Optimised Metric for Evaluation of Translation), использует методы машинного обучения для оценки качества перевода относительно эталонного. По данным исследований, различие в пределах 1–4 баллов может оказаться статистически незначимым, что объясняется погрешностью измерений. Даже разница в 4.0 балла может быть недостаточной для статистической значимости.

Эти результаты имеют важное практическое значение для разработчиков систем машинного перевода. Простое сравнение числовых значений метрик может привести к ошибочным выводам об улучшении качества перевода. Вместо этого необходимо проводить статистические тесты, чтобы определить, являются ли наблюдаемые различия действительно значимыми.

Выбор показателя для сравнения систем перевода

В статье «To Ship or Not to Ship: An Extensive Evaluation of Automatic Metrics for Machine Translation» исследователи из Microsoft изучили, какая метрика оценки качества машинного перевода лучше всего коррелирует с оценками профессиональных переводчиков. Для этого они провели следующий эксперимент.

Сначала профессиональные переводчики, свободно владеющие целевым языком, выполнили ручной перевод текста без пост-редактирования. Затем независимый переводчик подтвердил качество этих переводов. Переводчики видели контекст из других предложений, но переводили каждое предложение отдельно.

Согласно результатам исследования, метрика COMET, которая оценивает перевод на основе эталонного варианта, показала наивысшую корреляцию и точность по сравнению с оценками профессиональных переводчиков.

Авторы статьи также исследовали, какая метрика обеспечивает наибольшую точность при сравнении качества различных систем машинного перевода. По их выводам, COMET является наиболее точной метрикой для сравнения таких систем между собой.

9cd76453efec728499111de5af0d8e6a

Для проверки статистической значимости различий между результатами авторы использовали подход, описанный в статье “Statistical Significance Tests for Machine Translation Evaluation”.

Очевидно, что метрика COMET является наиболее надежным инструментом для оценки качества машинного перевода как при сравнении с человеческим переводом, так и при сравнении различных систем перевода между собой. Этот вывод имеет большое значение для разработчиков систем машинного перевода, которым необходимо объективно оценивать и сравнивать эффективность своих моделей.

Проверка статистической значимости

Важно убедиться, что наблюдаемые различия между системами перевода являются статистически значимыми, то есть с высокой вероятностью не являются результатом случайных факторов. Для этой цели Филипп Коэн предлагает использовать метод бутстрапа, описанный в его статье «Statistical Significance Tests for Machine Translation Evaluation»..

Метод бутстрапа (Bootstrap Resampling) – это статистическая процедура, основанная на выборке с возвращением, применяемая для определения точности (смещения) оценок дисперсии, среднего значения, стандартного отклонения, доверительных интервалов и других характеристик выборки. Схематично метод бутстрапа можно описать следующим образом:

96f6e06763ac77502d5f61f18778876b

Алгоритм проверки статистической значимости:

  1. Из исходной выборки случайным образом создается бутстрап-выборка того же размера, при этом некоторые наблюдения могут попасть в выборку несколько раз, а другие не попасть вовсе.

  2. Для каждой бутстрап-выборки вычисляется среднее значение метрики (например, BLEU или COMET).

  3. Процедура генерации бутстрап-выборок и вычисления средних значений повторяется многократно (десятки, сотни или тысячи раз).

  4. По полученному набору средних вычисляют общее среднее значение, которое принято считать средним значением всей выборки.

  5. Вычисляется разница между средними значениями для сравниваемых систем.

  6. Для разницы между средними значениями строится доверительный интервал.

  7. С помощью статистических критериев оценивается, является ли доверительный интервал для разницы средних значений статистически значимым.

Практическое применение

Описанный выше подход реализован для метрики COMET в библиотеке Unbabel/COMET, которая, помимо вычисления метрики COMET, предоставляет возможность проверки статистической значимости полученных результатов. Этот метод является важным шагом к более надежной и объективной оценке систем машинного перевода. Простое сравнение метрик часто может вводить в заблуждение, особенно когда различия незначительны.

Применение методов статистического анализа, таких как бутстрап, играет ключевую роль в объективной оценке и сравнении эффективности систем машинного перевода. Это позволяет разработчикам принимать более обоснованные решения при выборе оптимальных подходов и моделей, а также обеспечивает более достоверное представление результатов пользователям.

Заключение

Таким образом, при сравнении систем машинного перевода важно использовать статистические методы, чтобы отличить значимые улучшения от случайных факторов. Это позволит дать более объективную оценку прогресса технологий машинного перевода.

Источник: habr.com

✅ Найденные теги: Как, новости
Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Фото сгенерированных лиц: исследование показывает, что люди не могут отличить настоящие лица от сгенерированных
Нейросети построили капитализм за трое суток: 100 агентов Claude заперли…
Скетч: цифровой осьминог и виртуальный мир внутри компьютера с человечком.
Сцена с жестами пальцами, где один жест символизирует "VPN", а другой "KHP".
‼️Paramount купила Warner Bros. Discovery — сумма сделки составила безумные…
Скриншот репозитория GitHub "Claude Scientific Skills" AI для научных исследований.
Структура эффективного запроса Claude с элементами задачи, контекста и референса.
Эскиз и готовая веб-страница платформы для AI-дизайна в современном темном режиме.
ideipro logotyp
Image Not Found
Звёздное небо с галактиками и туманностями, космос, Вселенная, астрофотография.

Система оповещения обсерватории Рубина отправила 800 000 сигналов в первую ночь наблюдений.

Астрономы будут получать оповещения о небесных явлениях в течение нескольких минут после их обнаружения. Теренс О'Брайен, редактор раздела «Выходные». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной…

Мар 2, 2026
Женщина с длинными тёмными волосами в синем свете, нейтральный фон.

Расследование в отношении 61-фунтовой машины, которая «пожирает» пластик и выплевывает кирпичи.

Обзор компактного пресса для мягкого пластика Clear Drop — и что будет дальше. Шон Холлистер, старший редактор Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего…

Мар 2, 2026
Черный углеродное волокно с текстурой плетения, отражающий свет.

Материал будущего: как работает «бессмертный» композит

Учёные из Университета штата Северная Каролина представили композит нового поколения, способный самостоятельно восстанавливаться после серьёзных повреждений.  Речь идёт о модифицированном армированном волокном полимере (FRP), который не просто сохраняет прочность при малом весе, но и способен «залечивать» внутренние…

Мар 2, 2026
Круглый экран с изображением замка и горы, рядом электронная плата.

Круглый дисплей Waveshare для креативных проектов

Круглый 7-дюймовый сенсорный дисплей от Waveshare создан для разработчиков и дизайнеров, которым нужен нестандартный экран.  Это IPS-панель с разрешением 1 080×1 080 пикселей, поддержкой 10-точечного ёмкостного сенсора, оптической склейкой и защитным закалённым стеклом, выполненная в круглом форм-факторе.…

Мар 2, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых