Леч Мазур добавил три модели в свой бенчмарк по оценке навыков написания коротких рассказов. Kimi K2.5 — 8,07 балла, Qwen3 Max — 7,84, MiniMax-M2.1 — 7,78. Результаты неплохие, но самое ценное в этом бенчмарке — не цифры, а разбор конкретных ошибок.
Если вы используете ИИ для текстов, вот на что стоит обращать внимание при проверке.
Физическая непрерывность. Героиня «прикована к полу кандалами», через абзац спускается по лестнице, а цепь «остаётся наверху». Модели хорошо держат локальный контекст, но теряют детали на длинной дистанции.
Расчёты внутри сюжета. «Капля падает каждые 7 секунд — 13 капель в минуту, 780 в час». На самом деле ~8,6 капель в минуту. Если сюжет строится на точности — проверяйте математику отдельно.
Трекинг объектов. Объектив остался у одного персонажа, через пару строк оказался в кармане другого. Классическая проблема — следите за предметами вручную.
Смысловая перегрузка. «Оперативно-мягкая натура», «бессмертная прерывистость» — модели иногда генерируют красиво звучащие, но пустые конструкции. Если фраза требует перечитывания — возможно, она просто ничего не значит.
Полный список примеров и методология — на GitHub.
Практический вывод: LLM отлично справляются со стилем, диалогами и атмосферой. Слабое место — логическая целостность на уровне всего текста. Держите это в голове при редактуре, и ИИ станет хорошим соавтором.
Иногда пишу про такое в токены на ветер — иногда о том, как LLM думают, или просто притворяются.
Автор: ScriptShaper


