Начиная с 11 февраля, репозиторий препринтов arXiv будет требовать, чтобы все работы были написаны на английском языке или сопровождались полным переводом на этот язык. Ранее авторам было достаточно представить англоязычную аннотацию.

На ArXiv размещено почти 3 млн препринтов, и ежемесячно поступает более 20 тысяч новых заявок, хотя только 1% из них написаны на языках, отличных от английского.
Сотрудники сервиса утверждают, что новое правило облегчит работу модераторам и позволит расширить читательскую аудиторию. «Мы не можем объективно оценивать работы, если они не на английском языке», — говорит Ральф Вийерс, председатель редакционного консультативного совета arXiv и астроном Амстердамского университета, чей родной язык — голландский.
Сайт, серверы которого расположены в Корнельском университете в Итаке, не проводит рецензирование работ, но команда из примерно 300 модераторов-волонтёров проверяет, являются ли представленные материалы «подходящими и актуальными». ArXiv размещает почти 3 млн препринтов по восьми предметным областям, хотя подавляющее большинство относятся к информатике, физике и математике.
Пересмотренная языковая политика вызвала ряд громких жалоб. «Лично я считаю это потерей для нашего сообщества», — говорит математик Анджело Лучиа из Миланского политехнического университета в Италии. Несколько французских математиков тоже опубликовали в комментариях на arXiv сообщения о том, что они, возможно, перенесут свои работы на французский сервер препринтов HAL (Hyper Articles en Ligne). HAL размещает работы на нескольких языках, включая английский, французский и испанский, без необходимости их перевода.
При этом политика arXiv предусматривает, что автоматический перевод, например, выполненный чат-ботами на основе искусственного интеллекта, допустим, если он точно соответствует оригиналу. Однако редакторы arXiv сомневаются относительно возможностей этих систем. «Наш совет: смело используйте ИИ или LLM для перевода текста, но, пожалуйста, проверьте его. Наш собственный опыт показывает, что перевод с помощью ИИ хорош, но недостаточно», — говорит Вийерс.
Это предостережение перекликается с мнением респондентов опроса Nature, проведённого в 2025 году среди более чем 5000 исследователей со всего мира. Хотя более 90% опрошенных считали приемлемым использование ИИ для перевода научных статей на другие языки (и 8% из них уже делали это), более половины заявили, что это было бы уместно только в том случае, если бы перевод был проверен носителем языка.
Джеймс Зу, специалист по информатике из Стэнфордского университета в Калифорнии, и Ханна Клейдермахер, аспирантка по электротехнике из Стэнфорда, исследовали способность LLM переводить академические тексты с английского на другие языки. Они попросили GPT-4o создать тест из 50 вопросов с несколькими вариантами ответа для каждой из шести научных статей на английском языке по различным темам, а также сгенерировать ключи ответов. Это позволило создать автоматизированный эталон для оценки производительности LLM. Затем авторы поручили модели перевести шесть статей на 28 других языков и пройти тест по переведённым версиям.
В исследовании 2025 года, проведённом ByteDance Seed и Пекинским университетом, оценивалось качество перевода между китайским и английским языками для 20 LLM. Так, модель GPT-5-high набрала почти 77 баллов, что чуть ниже эталонного показателя для экспертов-людей (80 баллов), но большинство других, включая GPT-4o, Claude 4 и Deepseek-V3, набрали менее 60 баллов.
Ранее ArXiv объявила, что больше не будет принимать обзорные статьи и аналитические доклады по информатике, которые не были рецензированы и приняты академическим журналом или конференцией. Изменение правил обусловлено наводнением этой категории низкопробными статьями, созданными при помощи искусственного интеллекта.
Автор: maybe_elf


