- BrainTools - https://www.braintools.ru -
VK выложила [1] в открытый доступ нейросетевую модель RuModernBERT для обработки разговорного русского языка. RuModernBERT понимает длинные тексты целиком, без разбиения на части. Модель работает локально и не использует внешние API. По словам VK, это снижает нагрузку на инфраструктуру.

Инженеры могут применять RuModernBERT для задач по обработке текста. Например, для извлечения информации, анализа тональности, поиска и ранжирования в сервисах и приложениях. Модель понимает длинные и сложные запросы. Она помогает находить нужную информацию, видео, товары или документы.
RuModernBERT обучена на 2 трлн токенов. Использовались данные на русском, английском языках и коде. Максимальная длина контекста — до 8 192 токенов. Для обучения [2] брали разные источники: книги, статьи, посты и комментарии в соцсетях. Это позволяет модели работать с современным текстом и учитывать разговорную речь.
Доступны версии модели на 150 млн параметров и облегчённая — на 35 млн. Это даёт инженерам возможность выбрать нужную конфигурацию. Обновлены и две дополнительные версии: USER и USER2. Они улучшают группировку и поиск похожей информации. В USER2 встроена технология, которая уменьшает объём данных почти без потери точности.
RuModernBERT построена на современной архитектуре. За счёт этого обучение и развертывание модели происходят на 10–20% быстрее. Обработка длинных текстов — в 2–3 раза быстрее по сравнению с ModernBERT*.
На валидационном датасете RuModernBERT показала [3] лучшие результаты по обработке русского языка, чем другие модели. Её уже внедрили в сервисы VK. Все модели доступны [4]на платформе Hugging Face.
Автор: Lexx_Nimofff
Источник [5]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/17611
URLs in this post:
[1] выложила: https://vk.company/ru/press/releases/12059/
[2] обучения: http://www.braintools.ru/article/5125
[3] показала: https://huggingface.co/deepvk/RuModernBERT-base#russian-super-glue
[4] доступны : https://huggingface.co/deepvk/RuModernBERT-base
[5] Источник: https://habr.com/ru/news/930758/?utm_source=habrahabr&utm_medium=rss&utm_campaign=930758
Нажмите здесь для печати.