Я — Андрей Москаленко, научный сотрудник лаборатории FusionBrain, AIRI, занимаюсь компьютерным зрением. В конце марта я оказался на своей первой конференции по NLP — EACL 2026. В этом году она впервые проходила в необычном для европейской конференции месте, а именно в Марокко, в Африке. Из нашей команды FusionBrain.Robotics со мной было двое коллег, с которыми мы представляли две статьи, написанные в соавторстве с командой «Прикладное NLP» AIRI.
Конференция проходила с 24 по 29 марта — четыре основных дня и два дня воркшопов. Поездка получилась очень насыщенной и по науке, и по нетворкингу, поэтому хочу поделиться своими впечатлениями!

Пару слов про EACL
Конференция проводится с 1983 под эгидой европейской ветви Association for Computational Linguistics, которая также организует многим известные ACL, EMNLP и NAACL. Все конференции имеют общий пайплайн рецензирования, называемый ACL Rolling Review (ARR), который позволяет 4 раза в год подавать статьи даже без привязки к конкретной конференции. То есть, выбрать конференцию, на которую уйдет статья можно, даже после основного рецензирования. Доли принятых статей для основного трека и findings в этом году составили 21% и 16%, соответственно, всего было принято порядка 800 работ.
Это число кажется внушительным для шести дней, но после последней ECCV и, особенно, AAAI, которую я посетил с коллегами в январе в Сингапуре, число представляемых статей ощущалось на порядок меньше. Например, на EACL времени постерной сессии хватало, чтобы комфортно обойти все постеры и успеть позадавать вопросы авторам 5–10 самых интересных. Для сравнения, на AAAI, где было принято порядка 4000 статей, за время постерной сессии просто обойти все постеры было физически сложно, не говоря уже о времени на вопросы авторам. Кстати, мой коллега по AIRI Александр Панов сделал очень подробный репортаж с неё, рекомендую.
Сравнительная камерность EACL плодотворно повлияла на качество нетворкинга и погружения в детали всех работ. К каждому постеру стабильно подходили слушатели, которые хотели узнать подробности, вместо того, чтобы на бегу курсировать между бесконечными рядами постеров, которые ещё и разбиты на несколько павильонов. Причём, подходили исследователи, которые не занимаются CV, но их просто интересует наша тема с роботами. А были и те, кто, как и я, больше по CV, например, с сотрудником Waymo мы долго обсуждали нашу статью о VLA‑моделях.

Но был, как мне кажется, и недостаток в чрезмерной оптимизации расписания — организаторы ставили oral‑доклады и постеры параллельно, поэтому приходилось выбирать.
Место проведения и участники
В этом году конференция проводилась на севере в Дворце конгрессов в Рабате (Palais des Congrès Rabat). Для нас тот факт, что организаторы европейской конференции выбрали в качестве места проведения страны Марокко, стал большим плюсом из‑за наличия безвизового въезда и прямых авиарейсов.
Я впервые посещаю Африку, и вот уж чего я не ожидал увидеть, так это огромное количество зелени! Повсюду растительность, цветут апельсиновые деревья, а вот до пустыни мы так и не добрались 🙂. Климат комфортный, температура все дни держалась в районе 20 градусов.

На открытии конференции организаторы отметили большое разнообразие стран участников и поделились интересной статистикой. Всего в EACL 2026 приняло участие более 1700 человек из 85 стран, из них 1167 приехали очно. Примечательно, что исследователи из России по численности заняли 9-е место, обогнав даже Китай. А непосредственно из Института AIRI приехало 15 исследователей, представивших 13 работ.
Активности от организаторов
Первый день запомнился поиском всех долетевших коллег, началом нетворкинга и приветственным фуршетом, шедшим параллельно с регистрацией участников, где всем подарили подставки для марокканского чаепития. К слову, фирменным чаем с мятой нас спаивали все дни конференции 🙂.
Особенно запомнилась активность на третий день — Open Discussion, где присутствовали организаторы разных ACL‑конференций и отвечали на вопросы из зала. Затрагивали множество вопросов: рост конференций без потери качества рецензирования, возможность введения bidding‑а статей в ARR вместо случайного распределения, публичность всех рецензий и другие интересные вопросы.

Вечером того же дня организаторы провели Social Event, пригласив всех участников на ужин, который запомнился, опять же, нетворкингом и традиционными марокканскими танцами!
Также было несколько экскурсий. Одна проходила по городу — мы пробежались по основным достопримечательностям и дошли до океана. Вторая включала в себя поездку в соседний город Танжер, расположенный у побережья Гибралтарского пролива. На экскурсии я познакомился с самыми разными людьми — аспирантами из Люксембурга, США, Нидерландов. Отдельно запомнилось знакомство с профессором из Техаса Raymond Mooney, который рассказывал истории про развитие сообществ ACM, ACL, AAAI и про его аспирантов из России, а также делился видением актуального для меня направления Robotics и, в частности, Vision‑Language‑Action (VLA) моделей, которыми их лаборатория активно занимается.
Про наши работы
На EACL от нашей команды FusionBrain.Robotics были представлены две статьи — одна постером, другая устным докладом. Обе статьи находятся на стыке CV и NLP и написаны в коллаборации с командой AIRI «Прикладное NLP», которой руководит Елена Тутубалина.
Bring the Apple, Not the Sofa: Impact of Irrelevant Context in Embodied AI Commands on VLA Models, Andrey Moskalenko, Daria Pugacheva, Denis Shepelev, Andrey Kuznetsov, Vlad Shakhuro, Elena Tutubalina
Первая статья посвящена исследованию VLA‑моделей управления роботами. Такие модели набирают популярность и применяются как в задачах манипуляции, так и при полном управлении гуманоидными роботами. Они принимают изображение с камеры робота и команду на естественном языке, а на выход выдают последовательность низкоуровневых действий, которые нужно совершить для выполнения этой команды.
Мы задались вопросом, насколько сильно качество работы таких моделей зависит от переформулировки исходной текстовой команды на входе и наличия нерелевантного контекста. Дело в том, что в существующих бенчмарках разнообразие в текстах инструкций невелико, и зачастую модели переобучаются на определенные паттерны.
Для начала мы провели исследование в краудсорсинге и попросили асессоров переформулировать команды своими словами с полным сохранением смысла задачи. Даже такая простая переформулировка привела к падению доли успешных эпизодов на 20%. После этого мы сделали систематическое исследование влияния контекста, варьируя его сложность и длину. Оказалось, что даже добавление простого вводного слова в инструкции приводит к снижению качества state‑of‑the‑art моделей, и по мере увеличения длины нерелевантного контекста качество продолжает деградировать. Чтобы решить данную проблему, мы предложили фильтрацию на основе LLM‑моделей, извлекая полезную для робота информацию из исходного промпта. Это позволило восстановить большую часть исходных команд и вернуть высокие метрики.
SPARTA: Evaluating Reasoning Segmentation Robustness through Black-Box Adversarial Paraphrasing in Text Autoencoder Latent Space, Viktoriia Zinkovich, Anton Antonov, Andrei Spiridonov, Denis Shepelev, Andrey Moskalenko, Daria Pugacheva, Elena Tutubalina, Andrey Kuznetsov, Vlad Shakhuro
Статья посвящена теме reasoning‑сегментации изображений. Задача нейросети — по заданному текстовому описанию выделить маской описываемый объект. Представьте, что вы просите нейросеть найти «красивого кота» на картинке — и она отлично справляется. Но стоит сказать то же самое чуть иначе, например «ну, очень красивый котик», и результат может резко ухудшиться. В статье мы решили проверить, насколько модели сегментации по текстовой инструкции устойчивы к подобным переформулировкам.
Классические подходы к такой задаче часто используют искусственные возмущения — шум или бессмысленные символы, которые не встречаются в реальной речи («красивый кот» → «красивый кот #$%^&!»). Мы же фокусируемся на грамматически корректных и естественных вариантах формулировок. Для этого мы используем текстовый автоэнкодер SONAR, который сжимает текстовую инструкцию в компактное векторное представление. Затем мы возмущаем этот вектор так, чтобы модель начинала ошибаться, сохраняя при этом его близость к исходному вектору.
Эксперименты показывают, что даже современные модели остаются уязвимыми к подобным изменениям: успешность атак достигает 68%, несмотря на сохранение исходного смысла запроса. Это подчёркивает необходимость разработки методов, повышающих устойчивость моделей к переформулировкам текстовых инструкций.
Про другие работы
Изучить все 800 работ с EACL 2026 невозможно чисто физически, да и я не ставил себе такой цели. Лично для меня интерес представляли статьи на стыке CV и NLP, и ниже я отмечу несколько их них, которые мне больше всего запомнились, а также некоторые NLP-статьи.
Controlling Reading Ease with Gaze‑Guided Text Generation — целью было создать LLM, которая генерирует тексты, которые просто читать. Для этого авторы предложили использовать данные с eye-tracker’а оскорости прочтения разных слов, чтобы оценивать сложность, и сделали обуславливание LLM на генерацию текстов с учетом такой сложности.
KidsArtBench: Multi‑Dimensional Children«s Art Evaluation with Attribute‑Aware MLLMs — авторы решали очень необычную задачу: объективно оценить качество детских рисунков! Для этого они собрали и разметили рисунки из разных школ, после чего обучили VLM‑модель давать многокритериальную объективную метрику качества с разбиением на различные аспекты.
TempViz: On the Evaluation of Temporal Knowledge in Text‑to‑Image Models — в статье задались вопросом, насколько хорошо генеративные модели знают о различных временных рамках. Разбили задачу на несколько треков: картины в разных стилях, состояния зданий в разные даты, карты мира в разные даты, пейзажи в разные времена года и животные в разном возрасте.
Teams of LLM Agents can Exploit Zero‑Day Vulnerabilities — статья показывает, что команда LLM‑агентов может успешно эксплуатировать реальные zero‑day‑уязвимости, с которыми модель не была знакома заранее. Подход авторов дал улучшение в несколько раз по сравнению с предыдущими агентными фреймворками.
Dynamic Cheatsheet: Test‑Time Learning with Adaptive Memory — статья предлагает новый лёгкий механизм памяти на этапе инференса, который позволяет LLM сохранять и переиспользовать полезные фрагменты текстов и куски кода, накапливая компактные подсказки между задачами.
Compressing Language Models for Specialized Domains — коллектив из AstraZeneca предложил более эффективный и качественный способ сжатия языковых моделей для узких доменов, например, биомедицинских или юридических текстов.
Ultra‑Low‑Dimensional Prompt Tuning via Random Projection — авторы предложили подход для более эффективного дообучения моделей через разложение матрицы входных эмбеддингов. По их тестам такой подход превзошел LoRa по качеству, при этом имея меньшее число параметров.
Основные тренды
По набору представленных на конференции статей я могу выделить основные тренды:
-
Агентность — исследователям интересно, как собрать систему, которая планирует, разбивает задачу на шаги, помнит прошлые действия и взаимодействует с внешним миром.
-
Надёжность, Safety и Alignment — исследователи рассматривают множество актуальных вопросов про доверие к модели, оценки её устойчивости, оценки неопределенности. Стараются думать не только о числах в бенчмарках, но и возможном поведении модели при общении с пользователями в реальном мире и потенциальных рисках.
-
Внимание к малоресурсным языкам — этой теме было посвящено несколько секций конференции. Признаюсь, как специалист в CV, раньше я не сильно задумывался об этом направлении, хотя для NLP‑сообщества оно является важным. Из того, что я увидел, сейчас исследователи не только делают специфичные датасеты на малоресурсных языках, но и смотрят, переносится ли на другие языки safety, uncertainty, reasoning, возможность работы с длинным контекстом и так далее.
-
Мультимодальность — если раньше мультимодальность ассоциировалась с чем‑то вроде image captioning или VQA, то сейчас акцент сместился на более сложные визуально‑насыщенные сцены, документы, аудио и специфичные бенчмарки.
-
Новые бенчмарки — целью исследователей является приближение реальных сценариев использования в жизни, предложение новых задач, с которыми текущее поколение моделей ещё не справляется, некоторые акценты на мультиязычность и малоресурсные языки.
Заключение
На этом мой рассказ про EACL 2026 подходит к концу. Конференция вышла очень насыщенной: получилось не только посмотреть на текущее состояние области, но и лучше понять, куда вообще движется область. Для меня, впервые посетившего NLP‑конференцию, ценно было то, что EACL сохранила довольно камерную атмосферу. За счёт этого конференция ощущалась не как бесконечный поток докладов, а как место, где действительно можно спокойно обсудить идеи, присмотреться к новым направлениям и чуть лучше почувствовать, чем сегодня живёт NLP.
Ну и да — в Марокко точно стоит вернуться ещё раз. Но, пожалуй, в следующий раз уже не с постером, а с доской для серфинга!
Автор: ANDRYH4


