Из-за ошибки сканирования или перевода появился фальшивый научный термин; ИИ разносит его по всему интернету

Искусственный интеллект ^[1], прочёсывающий огромное количество информации, оказался заражён несуществующим научным термином. Этот набор слов уже попал в базы данных ИИ OpenAI и Anthropic.

Речь идёт о «термине» «вегетативная электронная микроскопия» (vegetative electron microscopy). Как сообщает ^[2]The Conversation, он мог появиться из статьи о клеточных стенках бактерий, опубликованной в журнале Bacteriological Reviews в 1959 году и позже оцифрованной. Расположение колонок в статье сбило с толку программное обеспечение оцифровки, которое смешало слово vegetative из одной колонки со словом electron из другой.

Из-за ошибки сканирования или перевода появился фальшивый научный термин; ИИ разносит его по всему интернету - 2

Ещё одна теория его возникновения отсылает к ошибке ^[3] перевода. Фраза vegetative electron microscopy появилась в двух научных статьях из Ирана (в подписях и аннотациях на английском языке) в 2017 и 2019 году. Как поясняет ^[4]Retraction Watch, этому поспособствовала ошибка перевода с языка фарси: слова «вегетативный» и «сканирование» отличаются в персидской письменности одной точкой, а сканирующая электронная микроскопия — вполне реальная вещь. Упущенной точки, как считают исследователи, вполне может быть достаточно, чтобы появился ошибочный термин.

Из-за ошибки сканирования или перевода появился фальшивый научный термин; ИИ разносит его по всему интернету - 3

На сегодняшний день «вегетативная электронная микроскопия» появляется в 22 статьях. Одну из них авторам пришлось отозвать из журнала Springer Nature, а для второй было выпущено исправление.

В Retraction Watch в качестве вероятного источника заражения нейросетей «вегетативной электронной микроскопией» называют объёмный датасет CommonCrawl на более чем 250 млн веб-страниц и петабайты данных. По данным исследователей, многие модели, если предложить им отрывки из научных статей, бодро продолжают их несуществующим термином.

«Мы обнаружили, что ошибка сохраняется в новых моделях ИИ, включая GPT-4o и Claude 3.5 от Anthropic. Это говорит о том, что бессмысленный термин теперь может быть навсегда встроен в базы знаний ИИ», — указывают исследователи.

Автор: AnnieBronson

Источник ^[5]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/14409

URLs in this post:

[1] интеллект: http://www.braintools.ru/article/7605

[2] сообщает : https://theconversation.com/a-weird-phrase-is-plaguing-scientific-papers-and-we-traced-it-back-to-a-glitch-in-ai-training-data-254463

[3] ошибке: http://www.braintools.ru/article/4192

[4] поясняет : https://retractionwatch.com/2025/03/04/vegetative-electron-microscopy-phrase-farsi-typo/

[5] Источник: https://habr.com/ru/news/902320/?utm_source=habrahabr&utm_medium=rss&utm_campaign=902320

Нажмите здесь для печати.