- BrainTools - https://www.braintools.ru -
Всем привет! Меня зовут Катя, я развиваю Gramax [1] — базу знаний для ИТ-команд.
В Gramax мы делаем упор на качественную работу как человека, так и машины. И часто получаем вопросы, как автор статей может повлиять на качество выдачи ИИ-поиска.
В большей мере качество поиска зависит от нас: мы регулярно улучшаем внутренние механизмы, чтобы авторы не становились заложниками технологий. Но есть универсальные правила, которые работают в любой системе с RAG. Этими правилами и хотим поделиться в этой статье:)
ИИ обрабатывает текст почти как человек: путается в расплывчатых формулировках, теряет контекст при противоречиях, не угадывает то, чего нет. Потому главный принцип прост:
Если по вашей базе знаний свободно ориентируется обычный человек — RAG-поиск тоже справится. И сделает это быстрее и качественнее.
При делении контента на статьи убедитесь, что статья не попала в раздел, к которому не имеет отношения. «Логичность» иерархии легко проверить на коллегах: предложите им самостоятельно найти нужную статью по дереву разделов.
Заголовки позволяют ИИ составить иерархию контента: он определяет, куда по смыслу относится текст под заголовком, и использует заголовок как обобщение.
|
❌ Плохо |
✅ Хорошо |
|
Дополнительно |
Льготы при рождении ребенка |
|
Информация |
Компенсация аренды жилья для иногородних сотрудников |
Если одно и то же правило описано в нескольких статьях немного по-разному, поиск может вернуть противоречивые ответы. Если дублирование необходимо:
Вынесите однообразный текст в отдельную статью и ссылайтесь на нее по месту.
Создайте сниппет [2] и добавьте во все статьи.
Если в статьях для одной сущности используются разные термины, с высокой вероятностью поиск это поймет и выдаст релевантные ответы. Но если, например, в 5 статьях используется термин «Поддержка», а в одной — «Социальные меры» — контекст может быть утерян.
Поиск не компенсирует отсутствие знаний: если информации нет в базе, модель не сможет догадаться и ответ будет ограничен. Поэтому важно постоянно пополнять базу знаний и регулярно актуализировать материалы: обновлять устаревшие правила, фиксировать изменения в процессах и удалять противоречия между разделами.
|
❌ Не учитывает |
✅ Учитывает |
💫 Почему так |
|
Ссылки между статьями |
Сниппеты [2] |
Gramax бьет весь текст на маленькие кусочки и ищет подходящую информацию именно по кусочкам. Вам не обязательно очевидно связывать текст между собой — поиск сам подберет подходящий ответ по тексту |
|
Текст в духе: «См. ниже» |
Иерархию: – По каталогам, разделам, подразделам – По заголовкам |
Gramax учитывает иерархию контента. Если информация из «См. ниже» находится под логичным заголовком — поиск найдет ее без дополнительного указания |
|
Текст на изображении, диаграмме |
Текст рядом с изображением |
ИИ-поиск не умеет считывать текст с изображений. Если информация с картинки должна быть в результатах поиска — добавьте ее в текст или в подпись [3] |
|
Старые версии статьи |
Текущую версию |
Поиск выдает результат из конкретной ветки [4]и самой актуальной версии статьи. Это позволяет не выводить информацию из устаревших версий и черновиков |
|
Текст в духе: «Информация ТОЛЬКО для HR» |
Ограничение прав |
Если у вас настроено ограничение прав [5] по каталогам, поиск выведет только доступную информацию для конкретного пользователя |
|
Свойства [6] |
|
Скоро сделаем! |
Хорошая структура помогает найти статью, когда человек примерно знает, что ищет. RAG решает другую задачу — он отвечает на вопрос, даже если человек не знает, в какой статье искать, или вообще не готов читать.
Например:
«Я еду в командировку в Москву на 5 дней, какие у меня суточные и нужно ли согласование?» — человеку нужно просмотреть несколько статей и собрать ответ самому. ИИ-поиск делает это за него.
Новый сотрудник не знает терминологию компании и не догадается зайти в раздел «Мобильность персонала», чтобы найти информацию про переезд. ИИ-поиск понимает контекст и может искать по синонимам.
Руководитель не хочет читать — он хочет быстрый ответ.
Хорошая база знаний и ИИ-поиск не конкурируют: структура нужна людям, которые читают, и одновременно делает поиск точнее. Плохо оформленная база — это проблема для обоих.
Смотрите наш сайт — https://gram.ax [1]
Вступайте в комьюнити — https://t.me/gramax_chat [9]
Автор: krakenkaken
Источник [10]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/27060
URLs in this post:
[1] Gramax: https://gram.ax/ru?utm_source=rag
[2] сниппет: https://gram.ax/resources/docs/article/editor/other-elements/snippets?utm_source=rag
[3] подпись: https://gram.ax/resources/docs/article/editor/images?utm_source=rag
[4] ветки : https://gram.ax/resources/docs/collaboration/branches?utm_source=rag
[5] ограничение прав: https://gram.ax/resources/docs/gramax-enterprise-server/manage-workspace/managing-licenses-and-roles?utm_source=rag
[6] Свойства: https://gram.ax/resources/docs/article/properties?utm_source=rag
[7] GitHub: https://github.com/Gram-ax/gramax
[8] GitVerse: https://gitverse.ru/gramax/gramax
[9] https://t.me/gramax_chat: https://t.me/gramax_chat
[10] Источник: https://habr.com/ru/companies/gram_ax/articles/1009778/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1009778
Нажмите здесь для печати.