- BrainTools - https://www.braintools.ru -

Когда пользователи жалуются на AI-тексты, почти всегда всплывает одно и то же место: «источник не тот», «цитата странная», «в списке литературы одно, в тексте — другое».
Это не баг конкретного сервиса. Работа с источниками — одна из самых сложных и уязвимых частей AI-систем, которые используются в учебных и академических задачах.
Разберёмся, почему так происходит — на примере того, как работа с источниками устроена в Кэмпе.
🔗 Перейти на официальный сайт Кэмп [1]
Интуитивное ожидание такое: модель пишет текст и сразу по ходу вставляет источники и цитаты.
На практике это одна из самых уязвимых точек. Генерация текста и работа с источниками — разные по своей природе задачи.
Генерация — это язык, связность и смыслы.
Источники — это поиск, сопоставление фрагментов, проверка страниц и работа с большими массивами данных.
Если совместить это в одном шаге, появляются галлюцинации в ссылках и цитатах. Мы видели такие ошибки [2] на практике, поэтому работу с источниками вынесли в отдельный контур, который живёт по другим правилам, отличающимся от генерации текста.
В продукте это выражается через жёсткие архитектурные ограничения: генератор не добавляет источники и цитаты самостоятельно. Каждая ссылка формируется только на основе реально найденного и проанализированного материала. Такой подход снижает «галлюциногенный индекс» и позволяет сохранять контроль над тем, какие источники используются в работе.
Если упростить, работа с источниками внутри системы [1] разбита на последовательные шаги, которые принципиально отделены от генерации текста.
На первом этапе система работает не с текстом, а с логикой [3] будущей работы.
Сначала формируется структура и набор смысловых аспектов, которые необходимо раскрыть. Тут система определяет, какие части темы требуют подтверждения источниками.
Дальше под каждый аспект подбирается несколько потенциальных источников.
Статьи, PDF-документы, фрагменты книг и методичек читаются и анализируются до того, как в тексте появляется хоть одна цитата.
После того как источники отобраны, начинается следующий шаг — их использование.
На этом этапе система:
сопоставляет найденные источники с конкретными смысловыми аспектами работы;
извлекает релевантные фрагменты;
оформляет ссылки и список литературы.
Этап не является продолжением генерации текста. Это отдельная логика, которая работает с уже отобранными материалами и пытается корректно встроить их в структуру будущей работы.

Ошибки чаще всего появляются на этапе сопоставления источников и оформления цитат. Здесь сходятся результаты разных шагов, которые выполнялись отдельно друг от друга: структура работы, набор смысловых аспектов и массив отобранных источников.
Именно поэтому на этом этапе любые неточности быстро выходят на поверхность — и начинают проявляться характерные ограничения автоматической работы с источниками.
Во-первых, сами источники редко бывают удобными для машинной обработки.
PDF-файлы, научные статьи и методички часто плохо структурированы и не имеют аккуратной разметки. При автоматическом анализе легко ошибиться с номером страницы, границами фрагмента или контекстом цитаты.
Во-вторых, поиск источников и их последующее использование разведены по разным шагам. Источник может быть корректно подобран под конкретный аспект темы, но при дальнейшем сопоставлении возникает рассинхрон: формально всё сходится, но конкретная цитата оказывается смещённой или выглядит неточной в выбранном месте.
В-третьих, объём данных усиливает эффект этих ограничений.
Для работы с источниками приходится обрабатывать большие массивы текста, и на таких объёмах даже редкие погрешности перестают быть незаметными.
Автоматический поиск источников чаще всего приводит к научным статьям. Причины прагматичные: они доступны, хорошо индексируются и формально соответствуют академическим требованиям.
Но именно здесь появляется системный перекос.
Научные статьи часто вторичны и активно цитируют друг друга. В результате система получает корректные, но однотипные формулировки без разнообразия мысли и выразительных цитат. Формально всё верно, по сути — бедно.
Более «живые» источники — учебники и монографии — дают гораздо более насыщенный материал, но плохо вписываются в автоматическую обработку. Они перегружены данными, сложны по структуре и требуют более глубокого контекстного понимания, чем может обеспечить масштабируемая автоматизация.
На этом фоне возникает общая проблема: автоматическая система не понимает академическую ценность источника так, как её понимает человек. Она видит текстовое совпадение и формальную релевантность, но не различает, где источник действительно усиливает работу, а где лишь формально подходит по теме.
Реклама может совпадать по ключевым словам.
Статья может быть корректной, но бесполезной.
Учебник — слишком сложным для конкретной задачи.
Один неверный источник может перечеркнуть весь аккуратно собранный текст — даже если сам текст написан логично и связно. Именно поэтому работа с источниками остаётся самой уязвимой частью всей системы: ошибка здесь напрямую бьёт по доверию к результату.
Поэтому в Кэмпе [1] изначально заложен принцип: AI помогает работать с источниками, ускоряет и упрощает процесс, но не снимает ответственность за их осмысленное использование.
Автор: heim-dallr
Источник [4]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/25180
URLs in this post:
[1] 🔗 Перейти на официальный сайт Кэмп: https://eduforms.org?rid=bb8c31f8e2b77faf
[2] ошибки: http://www.braintools.ru/article/4192
[3] логикой: http://www.braintools.ru/article/7640
[4] Источник: https://habr.com/ru/companies/kemp_ai/articles/992724/?utm_source=habrahabr&utm_medium=rss&utm_campaign=992724
Нажмите здесь для печати.