- BrainTools - https://www.braintools.ru -
Учёные Новосибирского государственного университета (НГУ) разработали [1] метод определения авторского стиля на основе математической статистики. Разработка одинаково эффективна для четырёх языков. Метод может найти применение в оценке качества переводов и решении вопросов заимствований и плагиата, в том числе текстов, созданных нейросетями. Результаты исследования опубликованы в октябре 2025 года в журнале [2] Entropy.
Профессор факультета информационных технологий НГУ Борис Рябко вместе с коллегами и учениками разработал количественный метод определения авторского стиля. Метод основан на использовании аппарата математической статистики. Это позволяет определять достоверность полученных выводов.
Исследователи подобрали минимальный объём текста в килобайтах для определения авторского стиля сразу четырёх языков: русского, английского, китайского и используемого в Эфиопии амхарского языка. Борис Рябко отметил, что эти языки относятся к очень далёким друг от друга языковым группам. Даже сам вопрос о сравнении длины текста не так прост для них. Например, буквы в русском языке не сопоставимы с иероглифами в китайском. Каждый иероглиф может переводиться на русский язык целым словом, а иногда и предложением. В рассматриваемой работе для всех языков объём текста оценивался в килобайтах, то есть в одних и тех же единицах.
Ранее описанный метод применялся для определения авторства литературных произведений. В некоторых случаях авторы произведений неизвестны или авторство сомнительно, как, например, у произведений Шекспира. Теперь метод может найти практическое применение для оценивания качества различных переводов и квалификации переводчиков, в том числе компьютерных.
Борис Рябко пояснил, что качество перевода может существенно влиять на восприятие [3] переведённого произведения. При предложенном подходе перевод тем лучше, чем в большей степени он сохраняет авторский стиль. При этом степень сохранения можно оценить количественно. Практически важная новая область применения разработки — оценивание качества машинного или компьютерного перевода, осуществляемого разными программами. Такие переводчики играют довольно важную роль в жизни современного общества.
Другая область применения метода — определять части текста, написанного разными авторами, в том числе и фрагменты, написанные искусственным интеллектом [4]. Эта задача особенно актуальна для университетов, а может, уже и школ. Там довольно интенсивно ведётся борьба с плагиатом в студенческих работах. Описанный метод может быть применён и для решения этой проблемы.
Автор: Lexx_Nimofff
Источник [5]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/23114
URLs in this post:
[1] разработали: https://www.nsu.ru/n/media/news/nauka/uchenye-ngu-pokazali-chto-avtorskiy-stil-opredelyaetsya-po-odinakovomu-obemu-teksta-dlya-sovershenno/#_1yvljdfrf
[2] журнале: https://www.mdpi.com/1099-4300/27/10/1039
[3] восприятие: http://www.braintools.ru/article/7534
[4] интеллектом: http://www.braintools.ru/article/7605
[5] Источник: https://habr.com/ru/news/976180/?utm_source=habrahabr&utm_medium=rss&utm_campaign=976180
Нажмите здесь для печати.