- BrainTools - https://www.braintools.ru -
В AI-текстах так часто используется длинное тире, что на эту тему пишут статьи вида «Длинное тире — признак СhatGPT». Некоторые люди, которым оно нравится, перестали его использовать [1] из страха, что на их тексты поставят клеймо «Сделано AI». Некоторые пишут статьи с объяснениями [2], что длинное тире (англ. em dash, m-dash) — это не признак текста, написанного моделями. При этом на удивление сложно заставить модели не добавлять в текст длинные тире, о чём свидетельствует ветка [3] на форумах OpenAI, где пользователи делятся своими неудачными попытками.

Почему AI так часто использует длинное тире? Есть гипотезы, что модели любят использовать длинное тире из-за экономии, или потому, что текст становится более структурированным, или всё из-за доступных материалов в сети, в которых часто встречается длинное тире. Объяснений много, но есть ли хоть одно убедительное?
Одно из распространённых объяснений состоит в том, что в обычном английском тексте много длинных тире, поэтому ИИ просто перенял такое поведение [4] из обучающих данных.
Я считаю подобные утверждения довольно неубедительными по той причине, что все думают, что AI часто использует длинные тире. Если бы длинные тире в текстах от AI встречались так же часто, как и в текстах людей, они были бы такими же незаметными, как и другие знаки препинания.
Другое объяснение, которое меня не убеждает, заключается в том, что AI нравятся длинные тире, потому что они универсальны.
Когда модель пытается предсказать следующий токен, длинное тире оставляет пространство для манёвра: оно может либо продолжить мысль с того же места, либо начать новую мысль. Поскольку модели просто пытаются выбрать следующий наиболее вероятный токен, могут ли они просто «перестраховываться», используя длинное тире?
Я так не думаю.
Во-первых, другие знаки препинания обладают такой же гибкостью.
Во-вторых, я не уверен, что «перестраховываться» — это подходящая идиома для описания того, как модели генерируют текст.
Есть мнение [5], что модели используют длинное тире по той причин, что при обучении [6] моделей явно учитывается стремление к краткости, а длинное тире очень эффективно с точки зрения [7] количества токенов.
Насколько я могу судить, играя с токенизатором [8] OpenAI, длинное тире само по себе не особо эффективно с точки зрения экономии токенов, хотя без него и приходится подбирать выражения на замену. Но всё равно объяснение неубедительно, потому, что тире иногда можно просто заменить запятой, которая не менее лаконична.
Не думаю, что GPT-4o настолько ориентирован на краткость, что проводит микрооптимизацию в отношении пунктуации: если бы он хотел использовать меньше токенов, он мог бы просто меньше болтать…
Одна из гипотез, которую я изучал достаточно подробно, гласит, что использование длинного тире (em-dash) может отражать местный диалект английского языка, на котором говорят работники RLHF (Reinforcement Learning from Human Feedback).
Заключительный этап обучения языковой модели включает в себя RLHF: обучение с подкреплением [9] и обратной связью от человека. По сути, сотням тестировщиков платят за то, что они взаимодействуют с моделью и оценивают её результаты, которые затем используются для улучшения модели и повышения её эффективности.
Компания, которая оплачивает эту работу, заинтересована в том, чтобы эту работу выполняли носители английского языка. Но они не обязательно должны жить в США или Англии, потому что там труд очень дорог. Сотрудники могу жить в странах наподобие Кении или Нигерии, откуда компания OpenAI, собственно, и нанимала людей [10] (подешевле).
Но одно интересное следствие такого решения заключается в том, что африканский английский отличается от американского или британского. Например, в африканском английском слово «delve» используется чаще, и это объясняет [11]то, почему GPT-4o так любит слово «delve» (и другие красивые слова, такие как «explore» и «tapestry»).
Но часто ли в африканском английском используется длинное тире? Если да, то африканские работники RLHF должны были высоко оценивать ответы с использованием тире. Тогда бы мы и нашли объяснение нашей загадке.
Но я не думаю, что этот ответ соответствует действительности. Я взял набор данных [12] с текстами на нигерийском английском и измерил частоту использования длинных тире в словах. Длинные тире составляли 0,022 % от всех слов в наборе данных.
А вот в этой статье [13] о частоте использования знаков препинания в английском тексте в целом, приводятся данные о том, что сейчас длинное тире используется в 0,25–0,275 % случаев. Цитата из статьи:
«Использование тире увеличилось после 1750 года и достигло своего пика в 1860 году (около 0,35 %). Далее процент использования стал снижаться вплоть до 1950-х годов, после чего колебался в пределах от 0,25 % до 0,275 %. Частота использования знаков препинания, рассчитанная в рамках текущего исследования, соотносится с количеством слов в корпусах текстов»
Сейчас нигерийский английский, который достаточно хорошо отражает уровень пунктуации в африканском английском, менее склонен к использованию длинных тире, чем современный английский
По этой причине я не думаю, что чрезмерное использование длинных тире и «delve» в вызваны одним и тем же механизмом.
У меня есть одно интересное наблюдение касательно длинных тире — GPT-3.5 их не использовал, GPT-4o использовал примерно в 10 раз больше длинных тире, чем его предшественник, с GPT-4.1 всё было ещё хуже.
Однако модели Anthropic и Google используют длинные тире. Даже китайские модели с открытым исходным кодом используют длинные тире. Что изменилось с ноября 2022 года по июль 2024 года?
Единственное, что изменилось, — это состав обучающих данных. В 2022 году OpenAI почти наверняка обучалась на смеси общедоступных интернет-данных и пиратских книг с таких сайтов, как LibGen. Однако, как только мощь языковых моделей стала очевидной, AI-лаборатории быстро поняли, что им нужно больше высококачественных обучающих данных, а это означало необходимость сканирования большого количества печатных книг.
Только сотрудники OpenAI знают, когда в OpenAI начали сканировать книги (и начинали ли вообще). Например, судя по публикациям после судов [14], Anthropic начали активно загружать печатные книги в феврале 2024 года. Разумно предположить, что и OpenAI делала нечто подобное, потому что в период с 2022 по 2024 год обучающие данные изменились и стали включать в себя множество печатных книг.
Помните приведённое выше исследование частоты использования знаков препинания, которое показало, что наибольшее количество длинных тире приходится на 1860 год? Я думаю, что вполне правдоподобной гипотезой будет то, что для моделей оцифровывали не пиратские книги, а старые — XIX века.
Интуитивно понятно, что пиратский контент смещён в сторону современной и популярной литературы, потому что именно её люди и хотят скачивать. Если бы AI-лаборатории хотели выйти за эти рамки, им пришлось бы покупать более старые книги, в которых, вероятно, было бы больше длинных тире. Теперь мы подошли к тому, что, на мой взгляд, является наиболее правдоподобным объяснением того, почему модели так любят длинные тире:
Современные модели используют печатные книги конца 1800-х — начала 1900-х годов в качестве высококачественных обучающих данных, а в этих книгах используется примерно на 30 % больше длинных тире, чем в современной английской прозе.
Вот почему так сложно заставить модели перестать использовать длинные тире: они изучали английский по текстам, в которых их было достаточно много!
Я хочу поблагодарить блог [15] Марии Сухаревой за то, что она обратила моё внимание [16] на этот момент. Я не согласен с ней в том, что длинное тире предпочтительнее с точки зрения структуры, по причинам, которые я кратко изложил выше, но я думаю, что она вполне вероятно права в том, что использование длинного тире связано с цифровизацией.
Более конкретные примеры и аналогичную точку зрения вы можете найти в этом посте [17], где показано, сколько длинных тире используется в некоторых классических произведениях. В моей любимой книге «Моби Дик» целых 1728 многоточий!
Существует три основных категории возможных объяснений того, почему модели так часто используют тире.
Первая категория — это структурные объяснения, в которых утверждается, что авторегрессионные модели по своей сути предпочитают длинное тире, потому что оно экономит токены, сохраняет возможность выбора или делает что-то ещё. Я не считаю это убедительным, потому что GPT-3.5 не злоупотреблял длинными тире.
Вторая категория — это объяснения, связанные с RLHF. В них утверждается, что люди, оценивающие текст, предпочитают длинное тире, потому что оно более разговорное или чаще встречается в том варианте английского языка, на котором говорят пользователи RLHF. Я думаю, что аргумент о варианте английского языка не выдерживает критики, но аргумент о том, что длинное тире более разговорное, может быть верным. Трудно сказать, какие доказательства могли бы подтвердить или опровергнуть эти утверждения.
Третья категория — это объяснения, основанные на обучающих данных: в них утверждается, что длинное тире встречается только в обучающих данных. Я не считаю это универсальным объяснением, но мне кажется вероятным, что оно может быть чрезмерно представлено в некоторых высококачественных обучающих данных: в частности, в печатных книгах начала XX века. В целом я считаю это самым убедительным объяснением.
Рассуждения во многом основаны на предположениях, потому что никто не может дать ответ на этот вопрос абсолютно точно (кроме OpenAI).
Возможно, я ошибаюсь в том, когда именно компания OpenAI начала оцифровывать письменный текст. Если они сделали это до выхода GPT-3.5, то тире появились явно не по данной причине.
Безусловно, современные модели заражены «болезнью длинного тире» (по крайней мере частично) из-за обучения на результатах работы других моделей. Либо они намеренно обучаются на синтетических данных, либо просто не могут избежать поглощения огромного количества контента, созданного AI, наряду с другими интернет-текстами.
Но я всё ещё кое-что не понимаю: если длинное тире распространено, потому что оно характерно для литературы конца 1800-х — начала 1900-х годов, то почему проза, написанная искусственным интеллектом [18], не похожа на «Моби Дика»? Возможно ли, что модели перенимают фрагменты старой английской прозы, например пунктуацию, но при этом создают текст, звучащий современно?
Я также могу ошибаться в том, что у недавно оцифрованного контента будут более ранние даты публикации. Вполне вероятно, что пиратские книги будут более современными, но может ли это перевешиваться количеством старых книг, находящихся в общественном достоянии?
Возможно, есть и более простое объяснение популярности тире: например, длинное тире просто выглядят более разговорными, поэтому их предпочитали пользователи RLHF, и это создало порочный круг, в котором появлялось всё больше и больше длинных тире? Это как-то согласуется с отрывком из интервью [19] Сэма Альтмана, где он говорит, что они добавили больше тире, потому что они нравились людям. Но как это утверждение доказать или опровергнуть я не знаю.
В целом я всё ещё удивлён тем, что нет единого мнения о причине появления одной из наиболее узнаваемых особенностей AI-текстов. Я думаю, что, скорее всего, прав в том, что причиной стала оцифровка произведений конца 1800-х — начала 1900-х годов, но было бы здорово, если бы кто-то, кто работал в OpenAI между выходом GPT-3.5 и GPT-4o (или кто-то, кто может знать об этом по какой-то другой причине), подтвердил, что именно это и произошло.
Другие гипотезы также не достаточно убедительны. Например, гипотеза, высказанная в комментариях [20] на Hacker News [21]: якобы за длинные тире несёт ответственность Medium , поскольку именно этот ресурс автоматически преобразует два дефиса в длинное тире, а Medium был источником высококачественных обучающих данных.
И даже если это утверждает генеральный директор Medium считает, мне это кажется совершенно неправдоподобным. Если бы люди часто использовали дефисы или двойные дефисы вместо длинных тире и вопрос звучал бы так: «Почему большие языковые модели используют длинное тире вместо дефиса?». Тогда я мог бы поверить в такое объяснение, связанное с типографикой. Но вопрос звучит так: «Почему большие языковые модели используют длинное тире в качестве знака препинания чаще, чем люди?».
По этой причине меня немного озадачивают комментарии, в которых в качестве возможных объяснений упоминаются Unicode [22], или обучение на русском языке [23], или типографические правила Википедии [24], или неправильно распознанные дефисы [25]. Ничто из этого не может объяснить, почему модели любят длинные тире! Если во время обучения модель будет воспринимать дефис (например, в слове «double-crossed») как длинное тире, это не повысит вероятность того, что модель будет использовать длинное тире в качестве круглых скобок. Скорее, это повысит вероятность того, что модель будет использовать длинное тире в качестве дефиса.
Автор: maratillyasov
Источник [26]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/21704
URLs in this post:
[1] перестали его использовать: https://www.reddit.com/r/OpenAI/comments/1mk62b1/comment/n7gnqpb/
[2] статьи с объяснениями: https://iamvishnu.com/posts/emdash-and-chatgpt
[3] ветка: https://community.openai.com/t/cannot-get-responses-to-not-include-dashes-and-em-dashes/1023216/7
[4] поведение: http://www.braintools.ru/article/9372
[5] Есть мнение: https://msukhareva.substack.com/p/the-mystery-of-emdashes-part-two?
[6] обучении: http://www.braintools.ru/article/5125
[7] зрения: http://www.braintools.ru/article/6238
[8] токенизатором: https://platform.openai.com/tokenizer
[9] подкреплением: http://www.braintools.ru/article/5528
[10] и нанимала людей: https://habr.com/ru/news/711696/
[11] объясняет : https://www.theguardian.com/technology/2024/apr/16/techscape-ai-gadgest-humane-ai-pin-chatgpt
[12] набор данных: https://varieng.helsinki.fi/CoRD/corpora/ICE-NIG/
[13] статье: https://www.researchgate.net/profile/Kun-Sun-5/publication/328512136_Frequency_Distributions_of_Punctuation_Marks_in_English_Evidence_from_Large-scale_Corpora/links/5f803541a6fdccfd7b521aac/Frequency-Distributions-of-Punctuation-Marks-in-English-Evidence-from-Large-scale-Corpora.pdf
[14] публикациям после судов: https://www.publishersweekly.com/pw/by-topic/digital/copyright/article/98089-federal-judge-rules-ai-training-is-fair-use-in-anthropic-copyright-case.html?utm_source=chatgpt.com
[15] блог: https://msukhareva.substack.com/p/the-mystery-of-emdashes-part-two
[16] внимание: http://www.braintools.ru/article/7595
[17] этом посте: https://medium.com/ghost-channel/the-em-dash-debate-is-broken-heres-what-the-data-actually-shows-023fffd5cd06
[18] интеллектом: http://www.braintools.ru/article/7605
[19] отрывком из интервью: https://www.linkedin.com/posts/curtwoodward_chatgpt-em-dash-deathwatch-sam-altman-activity-7355259218972557312-RH4j/
[20] комментариях: https://news.ycombinator.com/item?id=45789077
[21] Hacker News: https://news.ycombinator.com/item?id=45788327
[22] Unicode: https://news.ycombinator.com/item?id=45790985
[23] обучение на русском языке: https://news.ycombinator.com/item?id=45795391
[24] типографические правила Википедии: https://news.ycombinator.com/item?id=45788891
[25] неправильно распознанные дефисы: https://news.ycombinator.com/item?id=45789129
[26] Источник: https://habr.com/ru/companies/alfa/articles/964640/?utm_source=habrahabr&utm_medium=rss&utm_campaign=964640
Нажмите здесь для печати.