Image

EMNLP-2025: обзор исследований жестовых языков

Всем привет! В этом году в китайском городе Суджоу проходит юбилейная тридцатая конференция EMNLP (Empirical Methods in Natural Language Processing). Это одна из ведущих международных конференций по обработке естественного языка (NLP), проводимая под эгидой ассоциации компьютерной лингвистики ACL (Association for Computational Linguistics). 

Лого конференции EMNLP-2025
Лого конференции EMNLP-2025

Впервые конференция EMNLP прошла в 1996 году. Сегодня она посвящена эмпирическим методам, то есть моделям, основанным на данных, статистике и машинном обучении. А тогда конференция называлась Workshop on Very Large Corpora и представляла собой небольшое мероприятие ACL, посвящённое использованию корпусов текстов для обучения моделей. Тогда еще не было никаких трансформеров и уже привычных нам больших языковых моделей (LLM) и уж тем более мультимодальности, агентов и прочих хайповых ИИ-направлений. Это была эпоха статистического NLP, когда всё строилось вокруг частот, вероятностей и корпусов текстов, а в ходу были N-граммные языковые модели и скрытые Марковские модели. 

С конца 1990-х EMNLP выросла в крупную независимую конференцию с тысячами участников, и сейчас не ограничивает свои темы только NLP: выделены большие треки про мультимодальные системы на базе компьютерного зрения, обработки звука и музыки, векторной графики, создании мультиагентных систем и т. д. Сегодня EMNLP входит в тройку лучших конференций по обработке естественного языка наряду с ACL и NAACL. Ниже на графике — официальная статистика по количеству принятых статей (видна экспонента).

Экспоненциальный рост принятых публикаций
Экспоненциальный рост принятых публикаций

На EMNLP есть несколько разных треков, основные это Main и Findings. Помимо них есть разные демо-треки и мастер-классы, на которых участники могут поделиться своими открытиями и вживую продемонстрировать работы. В Main отбирают придирчиво, обычно с 3–4 рецензентами и жёсткой системой оценки. Принимают новые, ранее не опубликованные статьи с актуальной научной новизной. Средний порог входа около 20 %, то есть на конференцию проходит каждая пятая статья. Findings — дополнительный сборник конференции, созданный ACL с 2020 года. Там публикуют статьи, которые прошли рецензирование, но не попали в основной трек (часто по лимиту мест, а не из-за низкого качества самих статей). Findings цитируется и индексируется наравне с основной конференцией.

Жестовый язык на EMNLP

В этом году на EMNLP-2025 представлено пять работ по жестовым языкам. Три из них попали в Main, включая нашу (!), остальные попали в Findings. Давайте пройдёмся по каждой.

Logos as a Well-Tempered Pre-train for Sign Language Recognition

Начнём с нашей работы. При детальном изучении датасетов жестовых языков мы обнаружили явную проблему: одинаковые жесты с разным переводом представлены отдельными классами (“mom/mother», «открытие/открыть»). Мы собрали собственный датасет Logos (один из крупнейших датасетов изолированных жестов в мире и самый большой датасет русского жестового языка, РЖЯ), который лишён этого недостатка.

Раскадровка жестов
Раскадровка жестов

На основе Logos мы изучили влияние разметки жестов на качество моделей, используемых в других задачах. С помощью нашего претрейна на русском языке мы получили качество распознавания американского жестового языка (ASL) заметно выше прежних state-of-the-art решений. Основной упор сделан на анализе жестов, которые показываются почти одинаково, но имеют разное значение. Ключевые моменты:

  • Logos содержит 2 863 леммы, это 200 000 видео длительностью 3–5 сек.

  • Датасет записан 381 слабослышащими носителями РЖЯ. Это самый разнородный по пользователям датасет в мире!

  • Особое внимание уделено группе «визуально сходных жестов» (VSSigns) — когда одни и те же движения рук могут означать разные слова, отличаясь лишь немануальными компонентами (мимика, артикуляция: см. картинку выше).

  • Объединив такие визуально сходные жесты в группы, нам удалось повысить качество обучения: модель обучена на двух вариантах разметки — 2863 исходных классов и после группировки на 2004 классов.

  • Модель-энкодер, предобученная на Logos, успешно передаёт знания на другие языки жестов (например, WLASL — американский, AUTSL — турецкий).

  • При совместном обучении на нескольких языках достигается точность 65,4 % на американском бенчмарке изолированных жестов WLASL-2000, что существенно выше предыдущих результатов (на 5 процентных пунктов). Для обучения мы использовали реализацию архитектуры MViTv2-Small в репозитории MMAction2.

  • Эксперимент с попыткой прямого сопоставления русских жестов с американскими без обучения нового энкодера показал низкую точность, значит, нужен качественный универсальный энкодер, а не просто словарь соответствий.

Датасеты
Датасеты

Более подробный обзор на Хабре делал наш коллега Илья Оводов. Ссылка на статью на EMNLP-2025.

Improving Handshape Representations for Sign Language Processing: A Graph Neural Network Approach

Вторая работа из трека Main. Авторы из Johns Hopkins University предлагают новый метод для более точного распознавания конфигураций кистей (handshapes) в жестовом языке с помощью графовых нейронных сетей (GNN).

71d8cf1b582556991d2b92657d462e14

Распознавание жестов часто выполняется на уровне глоссов, без отдельного моделирования формы руки. Однако именно handshape — один из ключевых фонологических параметров, формирующих значение жеста. В американском жестовом языке (ASL) существует около 50 уникальных форм кистей, и их распознавание критично для понимания смысла.

Авторы предлагают двухкомпонентную Handshape-GNN, которая разделяет динамику движения и статическую форму руки:

  • Sign GNN анализирует последовательность кадров и учится распознавать временную эволюцию движений. Достигает точности 30 %.

  • Handshape GNN выделяет статические кадры (low-motion frames), где форма руки наиболее стабильна, и классифицирует их. Достигает точности 31 %.

4d79dd91f3f5b637855718c438a20810

Обе сети обучали контрастивно (как CLIP) на основе сходства и различий между парами примеров. Данные подавали в виде графа из 21 ключевой точки руки, соединённых анатомически осмысленными рёбрами (пальцы, суставы, запястье). При этом Dual GNN показал результат 46 %, что существенно выше отдельно взятых моделей. Для обучения использовали комбинацию датасетов PopSign (видео) и ASL-LEX (фонологические аннотации).

ef81d870eaf3a5b8384c481a43e54fb2

Авторы вводят биомеханические показатели (finger independence, thumb effort, handshape distance), которые показывают, какие конфигурации пальцев труднее различить и почему. Например, handshape с высокой «thumb effort» путают чаще.

Ссылка на статью на EMNLP-2025.

Investigating Dictionary Expansion for Video-based Sign Language Dictionaries

Авторы из Microsoft Research и University of Washington исследуют проблему расширения видеословарей жестового языка, используемых для обучения и распознавания жестов. Такие словари обычно ограничены по объёму, сложны в разметке и не охватывают всей лексики реального жестового языка, которым пользуются люди. Авторы предлагают новый метод автоматического добавления новых слов (жестов) в словарь, используя модели распознавания видео и текстовые-визуальные соответствия.

23e1891262ca3b1ac8b5b5093b89af6f

Видеословари изолированных жестовых языков состоят из коротких клипов 3-5 секунд, где один жест связан с определённым словом (глоссом) и вручную созданными аннотациями. Собрать крупный словарь сложно и дорого: каждая новая запись требует участия носителей языка и экспертов, которых достаточно сложно найти. 

Авторы хотят автоматически расширить словарь, не теряя его достоверность. Они рассматривают эту задачу как поиск ближайших соседей (retrieval) между жестами и их текстовыми описаниями. Предлагаемая система включает в себя три ключевых компонента:

  • видеоэнкодер, который извлекает признаки из жеста;

  • текстовый энкодер, кодирующий глосс или словесное описание;

  • механизм выравнивания (alignment), позволяющий сравнивать новые жесты с уже существующими словарными единицами.

Для обучения использовали контрастивное представление (по аналогии с CLIP): жесты и тексты, принадлежащие одному глоссу, сближаются в пространстве признаков, а разные — отдаляются. После обучения модель может добавлять новые записи в словарь (если находит кластер новых жестов, не соответствующих существующим), а также объединять дублирующие записи, если два видео фактически показывают один и тот же жест. Все эксперименты проводили на датасетах WLASL и How2Sign (английский и американский жестовые языки). Модель обучали на ограниченном подмножестве словаря и затем оценивали на новых глоссах, отсутствующих при обучении. Для оценки использовали точность поиска (метрика, которая оценивает, насколько хорошо система поиска находит релевантные сущности) и семантическое разнообразие (мера разнообразия по смыслу среди возвращаемых результатов) новых добавлений.

Результаты:

  • Модель успешно добавляет новые классы с точностью до 70–75 % корректных соответствий (по человеческим оценкам).

  • Использование мультимодальных представлений (видео+текст) даёт прирост точности до +12% по сравнению с чисто визуальной моделью.

  • Визуально близкие, но семантически разные жесты (например, help и support) всё ещё сложны для распознавания.

  • При добавлении новых классов важно учитывать динамику движения жеста, а не только визуальные признаки.

  • Человеческая проверка всё ещё нужна, но её объём можно сократить примерно вдвое.

Ссылка на статью на EMNLP-2025.

PoseStitch-SLT: Linguistically Inspired Pose-Stitching for End-to-End Sign Language Translation

Ещё одна работа из трека Main от авторов из индийского института IIT Kanpur. В работе предлагается новый способ массовой генерации синтетических данных для перевода жестового языка без глоссов и без видеозаписей. с помощью грамматических шаблонов и композиционного склеивания поз жестов в цельные предложения, и как результат — десятки миллионов новых примеров «позы → текст».

04fa4c7f46dd73e2a8c1fa7b619a4d63

Авторы отмечают, что большинство существующих систем опираются либо на промежуточные глоссы (gloss annotations), либо на сырые видео, что усложняет обучение, особенно в сценариях с малым количеством данных. Чтобы преодолеть эту нехватку, они предложили метод PoseStitch‑SLT: схему предобучения на основе объединения (stitching) последовательностей поз (ключевые точки тела, рук и лица) в соответствии с лингвистическими шаблонами предложений. Исследователи взяли доступные словоформы к жестовым языкам (например, из всё тех же известных датасетов WLASL для американского ЖЯ и CISLR для индийского ЖЯ), затем взяли заранее заданные грамматические шаблоны (например, из набора BLiMP) и сшили кадры-позы для отдельных слов в «ролик»-последовательность, соответствующую целому предложению.

Далее использовали трансформер (encoder-decoder) для обучения на этих синтетических данных, а затем продолжили обучение на реальных парах из набора How2Sign и iSign. Такой подход позволяет модели сначала охватить разнообразие синтетических предложений, затем плавно адаптироваться к реальным данным. В результате на How2Sign BLEU-4 поднялся примерно с 1,97 до 4,56, а на iSign — с 0,55 до 3,43, что значительно лучше предыдущих методов. Но это всё ещё не пригодно для широкого применения.

7c894abdc49f091e9af81b84cf9ff10a

Тем не менее авторы честно описывают ограничения: покрытие словаря ограничено (в синтетических данных лексическое пересечение невелико), для сшивания поз используется английский порядок слов, что может вообще не отражать грамматику жестового языка. В целом статья предлагает интересное направление, особенно актуальна для низкоресурсных жестовых языков и может ускорить развитие систем перевода жестов.

Ссылка на статью на EMNLP-2025.

Rethinking Sign Language Translation: The Impact of Signer Dependence on Model Evaluation

В этой статье рассматривается серьёзная проблема в области перевода жестового языка: зависимость моделей от конкретных исполнителей жестов (на англ. signers), то есть от пользователей, которые записывают датасет. Авторы отмечают, что большинство современных систем для перевода жестового языка обучаются и тестируются на перекрывающихся выборках испол­нителей, что создаёт иллюзию хорошей обобщающей способности. В действительности такие модели могут просто «запоминать» особенности конкретных исполнителей, а не учиться общим паттернам жестового языка. Если совсем утрированно, то модель запоминает фон или одежду пользователя, но не динамику движения жеста.

3ae1d6e5dd9c5296228dcbbc0de878e2

Для проверки этой гипотезы авторы провели серию экспериментов на трёх открытых бесглоссовых (gloss-free) моделях: GFSLT‑VLP, GASLT и SignCL. За основу взяли датасеты PHOENIX14T и CSL‑Daily. После разделения исполнителей на обучающую и тестовую выборку так, чтобы одни и те же люди не встречались в обоих наборах, производительность моделей резко снизилась. Казалось бы, очевидный факт, но во многих датасетах и бенчмарках этому вообще не уделяют внимание. Например, на PHOENIX14T модель GFSLT-VLP падает с BLEU-4 = 21,44 до 3,59 и с ROUGE-L = 42,49 до 11,89;

Авторы также обнаружили, что в наборе CSL-Daily распространена ситуация, когда одни и те же предложения выполняют разные исполнители, так как при сборе датасета использовали перекрытие больше одного. В итоге стандартные разбиения данных приводят к тому, что в train и test попадают одинаковые предложения, хоть и от разных пользователей.

Ссылка на статью на EMNLP-2025.

Выводы

Распознавание жестовых языков ещё далеко до идеала, и лучшие модели совершенно не пригодны по качеству для внедрения в готовые продукты. Кроме того, нужно тщательно подходить к инженерии данных, включая сбор, валидацию и разметку больших корпусов данных, и к созданию качественных бенчмарков, которые бы адекватно и полно оценивали существующие и новые модели. Остро стоит вопрос справедливой оплаты труда носителей жестовых языков, которые участвуют в создании данных и участвуют в исследованиях по созданию новых нейросетевых решений. Но расстраиваться не стоит, в самом ближайшем будущем нас ждут ИИ-переводчики с жестового языка и обратно (включая 3D-анимированных аватаров в режиме реального времени). А наша команда покажет на AIJ-2025 первый в мире работающий прототип реального переводчика с непрерывного РЖЯ на русский язык!

Источник: habr.com

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.
dummy-img
Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.
Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.
dummy-img
dummy-img
Взаимодействие человека и машины погружается под воду.
Взаимодействие человека и машины погружается под воду.
Дифференциально приватное машинное обучение в масштабе с использованием JAX-Privacy
Image Not Found
Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.

Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.

Вкратце Опубликовано: Изображение предоставлено: Thos Robinson/Getty Images для The New York Times (откроется в новом окне) Джули Борт Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.…

Апр 21, 2026
dummy-img

Как почистить виниловые пластинки (2026): пылесос, ультразвук, чистящий раствор, щетка.

Эти щелчки и треск недопустимы. Приведите свою музыку в порядок с помощью этого удобного руководства. Источник: www.wired.com

Апр 21, 2026
Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Это сегодняшний выпуск The Download, нашей ежедневной новостной рассылки, которая предоставляет вам ежедневную порцию событий в мире технологий. Кибермошенники обходят системы безопасности банков с помощью незаконных инструментов, продаваемых в Telegram. В центре по отмыванию денег в Камбодже…

Апр 21, 2026
Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Это сегодняшний выпуск The Download, нашей ежедневной новостной рассылки, которая предоставляет вам ежедневную порцию событий в мире технологий. Кибермошенники обходят системы безопасности банков с помощью незаконных инструментов, продаваемых в Telegram. В центре по отмыванию денег в Камбодже…

Апр 21, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых