- BrainTools - https://www.braintools.ru -

EMNLP-2025: обзор исследований жестовых языков

Всем привет! В этом году в китайском городе Суджоу проходит юбилейная тридцатая конференция EMNLP [1] (Empirical Methods in Natural Language Processing). Это одна из ведущих международных конференций по обработке естественного языка (NLP), проводимая под эгидой ассоциации [2] компьютерной лингвистики ACL (Association for Computational Linguistics). 

Лого конференции EMNLP-2025

Лого конференции EMNLP-2025

Впервые конференция EMNLP прошла в 1996 году. Сегодня она посвящена эмпирическим методам, то есть моделям, основанным на данных, статистике и машинном обучении [3]. А тогда конференция называлась Workshop on Very Large Corpora и представляла собой небольшое мероприятие ACL, посвящённое использованию корпусов текстов для обучения моделей. Тогда еще не было никаких трансформеров и уже привычных нам больших языковых моделей (LLM) и уж тем более мультимодальности, агентов и прочих хайповых ИИ-направлений. Это была эпоха статистического NLP, когда всё строилось вокруг частот, вероятностей и корпусов текстов, а в ходу были N-граммные языковые модели и скрытые Марковские модели. 

С конца 1990-х EMNLP выросла в крупную независимую конференцию с тысячами участников, и сейчас не ограничивает свои темы только NLP: выделены большие треки про мультимодальные системы на базе компьютерного зрения [4], обработки звука и музыки, векторной графики, создании мультиагентных систем и т. д. Сегодня EMNLP входит в тройку лучших конференций по обработке естественного языка наряду с ACL и NAACL. Ниже на графике — официальная статистика по количеству принятых статей (видна экспонента).

Экспоненциальный рост принятых публикаций

Экспоненциальный рост принятых публикаций

На EMNLP есть несколько разных треков, основные это Main и Findings. Помимо них есть разные демо-треки и мастер-классы, на которых участники могут поделиться своими открытиями и вживую продемонстрировать работы. В Main отбирают придирчиво, обычно с 3–4 рецензентами и жёсткой системой оценки. Принимают новые, ранее не опубликованные статьи с актуальной научной новизной. Средний порог входа около 20 %, то есть на конференцию проходит каждая пятая статья. Findings — дополнительный сборник конференции, созданный ACL с 2020 года. Там публикуют статьи, которые прошли рецензирование, но не попали в основной трек (часто по лимиту мест, а не из-за низкого качества самих статей). Findings цитируется и индексируется наравне с основной конференцией.

Жестовый язык на EMNLP

В этом году на EMNLP-2025 представлено пять работ по жестовым языкам. Три из них попали в Main, включая нашу (!), остальные попали в Findings. Давайте пройдёмся по каждой.

Logos as a Well-Tempered Pre-train for Sign Language Recognition

Начнём с нашей работы. При детальном изучении датасетов жестовых языков мы обнаружили явную проблему: одинаковые жесты с разным переводом представлены отдельными классами (“mom/mother», «открытие/открыть»). Мы собрали собственный датасет Logos (один из крупнейших датасетов изолированных жестов в мире и самый большой датасет русского жестового языка, РЖЯ), который лишён этого недостатка.

Раскадровка жестов

Раскадровка жестов

На основе Logos мы изучили влияние разметки жестов на качество моделей, используемых в других задачах. С помощью нашего претрейна на русском языке мы получили качество распознавания американского жестового языка (ASL) заметно выше прежних state-of-the-art решений. Основной упор сделан на анализе жестов, которые показываются почти одинаково, но имеют разное значение. Ключевые моменты:

  • Logos содержит 2 863 леммы, это 200 000 видео длительностью 3–5 сек.

  • Датасет записан 381 слабослышащими носителями РЖЯ. Это самый разнородный по пользователям датасет в мире!

  • Особое внимание [5] уделено группе «визуально сходных жестов» (VSSigns) — когда одни и те же движения рук могут означать разные слова, отличаясь лишь немануальными компонентами (мимика, артикуляция [6]: см. картинку выше).

  • Объединив такие визуально сходные жесты в группы, нам удалось повысить качество обучения: модель обучена на двух вариантах разметки — 2863 исходных классов и после группировки на 2004 классов.

  • Модель-энкодер, предобученная на Logos, успешно передаёт знания на другие языки жестов (например, WLASL — американский, AUTSL — турецкий).

  • При совместном обучении на нескольких языках достигается точность 65,4 % на американском бенчмарке изолированных жестов WLASL-2000, что существенно выше предыдущих результатов (на 5 процентных пунктов). Для обучения мы использовали реализацию архитектуры MViTv2-Small [7] в репозитории [8]MMAction2.

  • Эксперимент с попыткой прямого сопоставления русских жестов с американскими без обучения нового энкодера показал низкую точность, значит, нужен качественный универсальный энкодер, а не просто словарь соответствий.

Датасеты

Датасеты

Более подробный обзор [9] на Хабре делал наш коллега Илья Оводов. Ссылка на статью на EMNLP-2025 [10].

Improving Handshape Representations for Sign Language Processing: A Graph Neural Network Approach

Вторая работа из трека Main. Авторы из Johns Hopkins University предлагают новый метод для более точного распознавания конфигураций кистей (handshapes) в жестовом языке с помощью графовых нейронных сетей (GNN).

EMNLP-2025: обзор исследований жестовых языков - 5

Распознавание жестов часто выполняется на уровне глоссов, без отдельного моделирования формы руки. Однако именно handshape — один из ключевых фонологических параметров, формирующих значение жеста. В американском жестовом языке (ASL) существует около 50 уникальных форм кистей, и их распознавание критично для понимания смысла.

Авторы предлагают двухкомпонентную Handshape-GNN, которая разделяет динамику движения и статическую форму руки:

  • Sign GNN анализирует последовательность кадров и учится распознавать временную эволюцию [11] движений. Достигает точности 30 %.

  • Handshape GNN выделяет статические кадры (low-motion frames), где форма руки наиболее стабильна, и классифицирует их. Достигает точности 31 %.

EMNLP-2025: обзор исследований жестовых языков - 6

Обе сети обучали контрастивно (как CLIP) на основе сходства и различий между парами примеров. Данные подавали в виде графа из 21 ключевой точки руки, соединённых анатомически осмысленными рёбрами (пальцы, суставы, запястье). При этом Dual GNN показал результат 46 %, что существенно выше отдельно взятых моделей. Для обучения использовали комбинацию датасетов PopSign (видео) и ASL-LEX (фонологические аннотации).

EMNLP-2025: обзор исследований жестовых языков - 7

Авторы вводят биомеханические показатели (finger independence, thumb effort, handshape distance), которые показывают, какие конфигурации пальцев труднее различить и почему. Например, handshape с высокой «thumb effort» путают чаще.

Ссылка на статью на EMNLP-2025 [12].

Investigating Dictionary Expansion for Video-based Sign Language Dictionaries

Авторы из Microsoft Research и University of Washington исследуют проблему расширения видеословарей жестового языка, используемых для обучения и распознавания жестов. Такие словари обычно ограничены по объёму, сложны в разметке и не охватывают всей лексики реального жестового языка, которым пользуются люди. Авторы предлагают новый метод автоматического добавления новых слов (жестов) в словарь, используя модели распознавания видео и текстовые-визуальные соответствия.

EMNLP-2025: обзор исследований жестовых языков - 8

Видеословари изолированных жестовых языков состоят из коротких клипов 3-5 секунд, где один жест связан с определённым словом (глоссом) и вручную созданными аннотациями. Собрать крупный словарь сложно и дорого: каждая новая запись требует участия носителей языка и экспертов, которых достаточно сложно найти. 

Авторы хотят автоматически расширить словарь, не теряя его достоверность. Они рассматривают эту задачу как поиск ближайших соседей (retrieval) между жестами и их текстовыми описаниями. Предлагаемая система включает в себя три ключевых компонента:

  • видеоэнкодер, который извлекает признаки из жеста;

  • текстовый энкодер, кодирующий глосс или словесное описание;

  • механизм выравнивания (alignment), позволяющий сравнивать новые жесты с уже существующими словарными единицами.

Для обучения использовали контрастивное представление (по аналогии с CLIP): жесты и тексты, принадлежащие одному глоссу, сближаются в пространстве признаков, а разные — отдаляются. После обучения модель может добавлять новые записи в словарь (если находит кластер новых жестов, не соответствующих существующим), а также объединять дублирующие записи, если два видео фактически показывают один и тот же жест. Все эксперименты проводили на датасетах WLASL и How2Sign (английский и американский жестовые языки). Модель обучали на ограниченном подмножестве словаря и затем оценивали на новых глоссах, отсутствующих при обучении. Для оценки использовали точность поиска (метрика, которая оценивает, насколько хорошо система поиска находит релевантные сущности) и семантическое разнообразие (мера разнообразия по смыслу среди возвращаемых результатов) новых добавлений.

Результаты:

  • Модель успешно добавляет новые классы с точностью до 70–75 % корректных соответствий (по человеческим оценкам).

  • Использование мультимодальных представлений (видео+текст) даёт прирост точности до +12% по сравнению с чисто визуальной моделью.

  • Визуально близкие, но семантически разные жесты (например, help и support) всё ещё сложны для распознавания.

  • При добавлении новых классов важно учитывать динамику движения жеста, а не только визуальные признаки.

  • Человеческая проверка всё ещё нужна, но её объём можно сократить примерно вдвое.

Ссылка на статью на EMNLP-2025 [13].

PoseStitch-SLT: Linguistically Inspired Pose-Stitching for End-to-End Sign Language Translation

Ещё одна работа из трека Main от авторов из индийского института IIT Kanpur. В работе предлагается новый способ массовой генерации синтетических данных для перевода жестового языка без глоссов и без видеозаписей. с помощью грамматических шаблонов и композиционного склеивания поз жестов в цельные предложения, и как результат — десятки миллионов новых примеров «позы → текст».

EMNLP-2025: обзор исследований жестовых языков - 9

Авторы отмечают, что большинство существующих систем опираются либо на промежуточные глоссы (gloss annotations), либо на сырые видео, что усложняет обучение, особенно в сценариях с малым количеством данных. Чтобы преодолеть эту нехватку, они предложили метод PoseStitch‑SLT: схему предобучения на основе объединения (stitching) последовательностей поз (ключевые точки тела, рук и лица) в соответствии с лингвистическими шаблонами предложений. Исследователи взяли доступные словоформы к жестовым языкам (например, из всё тех же известных датасетов WLASL для американского ЖЯ и CISLR для индийского ЖЯ), затем взяли заранее заданные грамматические шаблоны (например, из набора BLiMP [14]) и сшили кадры-позы для отдельных слов в «ролик»-последовательность, соответствующую целому предложению.

Далее использовали трансформер (encoder-decoder) для обучения на этих синтетических данных, а затем продолжили обучение на реальных парах из набора How2Sign и iSign. Такой подход позволяет модели сначала охватить разнообразие синтетических предложений, затем плавно адаптироваться к реальным данным. В результате на How2Sign BLEU-4 поднялся примерно с 1,97 до 4,56, а на iSign — с 0,55 до 3,43, что значительно лучше предыдущих методов. Но это всё ещё не пригодно для широкого применения.

EMNLP-2025: обзор исследований жестовых языков - 10

Тем не менее авторы честно описывают ограничения: покрытие словаря ограничено (в синтетических данных лексическое пересечение невелико), для сшивания поз используется английский порядок слов, что может вообще не отражать грамматику жестового языка. В целом статья предлагает интересное направление, особенно актуальна для низкоресурсных жестовых языков и может ускорить развитие систем перевода жестов.

Ссылка на статью на EMNLP-2025 [15].

Rethinking Sign Language Translation: The Impact of Signer Dependence on Model Evaluation

В этой статье рассматривается серьёзная проблема в области перевода жестового языка: зависимость моделей от конкретных исполнителей жестов (на англ. signers), то есть от пользователей, которые записывают датасет. Авторы отмечают, что большинство современных систем для перевода жестового языка обучаются и тестируются на перекрывающихся выборках испол­нителей, что создаёт иллюзию хорошей обобщающей способности. В действительности такие модели могут просто «запоминать» особенности конкретных исполнителей, а не учиться общим паттернам жестового языка. Если совсем утрированно, то модель запоминает фон или одежду пользователя, но не динамику движения жеста.

EMNLP-2025: обзор исследований жестовых языков - 11

Для проверки этой гипотезы авторы провели серию экспериментов на трёх открытых бесглоссовых (gloss-free) моделях: GFSLT‑VLP, GASLT и SignCL. За основу взяли датасеты PHOENIX14T и CSL‑Daily. После разделения исполнителей на обучающую и тестовую выборку так, чтобы одни и те же люди не встречались в обоих наборах, производительность моделей резко снизилась. Казалось бы, очевидный факт, но во многих датасетах и бенчмарках этому вообще не уделяют внимание. Например, на PHOENIX14T модель GFSLT-VLP падает с BLEU-4 = 21,44 до 3,59 и с ROUGE-L = 42,49 до 11,89;

Авторы также обнаружили, что в наборе CSL-Daily распространена ситуация, когда одни и те же предложения выполняют разные исполнители, так как при сборе датасета использовали перекрытие больше одного. В итоге стандартные разбиения данных приводят к тому, что в train и test попадают одинаковые предложения, хоть и от разных пользователей.

Ссылка на статью на EMNLP-2025 [16].

Выводы

Распознавание жестовых языков ещё далеко до идеала, и лучшие модели совершенно не пригодны по качеству для внедрения в готовые продукты. Кроме того, нужно тщательно подходить к инженерии данных, включая сбор, валидацию и разметку больших корпусов данных, и к созданию качественных бенчмарков, которые бы адекватно и полно оценивали существующие и новые модели. Остро стоит вопрос справедливой оплаты труда носителей жестовых языков, которые участвуют в создании данных и участвуют в исследованиях по созданию новых нейросетевых решений. Но расстраиваться не стоит, в самом ближайшем будущем нас ждут ИИ-переводчики с жестового языка и обратно (включая 3D-анимированных аватаров в режиме реального времени). А наша команда покажет на AIJ-2025 первый в мире работающий прототип реального переводчика с непрерывного РЖЯ на русский язык!

Автор: hukenovs

Источник [17]


Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/21867

URLs in this post:

[1] EMNLP: https://2025.emnlp.org/

[2] ассоциации: http://www.braintools.ru/article/621

[3] обучении: http://www.braintools.ru/article/5125

[4] зрения: http://www.braintools.ru/article/6238

[5] внимание: http://www.braintools.ru/article/7595

[6] артикуляция: http://www.braintools.ru/article/5128

[7] MViTv2-Small: https://arxiv.org/pdf/2112.01526

[8] : https://github.com/open-mmlab/mmaction2

[9] обзор: https://habr.com/ru/companies/sberbank/articles/919884/

[10] Ссылка на статью на EMNLP-2025: https://aclanthology.org/2025.emnlp-main.1238.pdf

[11] эволюцию: http://www.braintools.ru/article/7702

[12] Ссылка на статью на EMNLP-2025: https://aclanthology.org/2025.emnlp-main.1483.pdf

[13] Ссылка на статью на EMNLP-2025: https://aclanthology.org/2025.findings-emnlp.1243.pdf

[14] BLiMP: https://github.com/alexwarstadt/blimp

[15] Ссылка на статью на EMNLP-2025: https://aclanthology.org/2025.emnlp-main.698.pdf

[16] Ссылка на статью на EMNLP-2025: https://aclanthology.org/2025.findings-emnlp.997.pdf

[17] Источник: https://habr.com/ru/companies/sberbank/articles/965274/?utm_campaign=965274&utm_source=habrahabr&utm_medium=rss

www.BrainTools.ru

Rambler's Top100