- BrainTools - https://www.braintools.ru -
Это вторая часть цикла публикаций, где мы говорим не о теории искусственного интеллекта [1], а о суровой реальнос��и его внедрения в бизнес. В первой части [2] мы обсуждали стратегические ловушки, а теперь настал черед уровня данных, который оказался для нас минным полем.

Мы быстро поняли, что успех LLM (будь то дообучение модели или создание RAG-системы) зависит не только от сложности алгоритмов и продуманности уровней, а еще и от того, что мы в эту модель «скармливаем». И здесь нас ждал целый ряд неприятных сюрпризов.
Казалось бы, у компании — гигантская база знаний: тысячи документов, нормативных актов (НПА), инструкций. Идеальное сырье для ИИ? Не совсем. Мы столкнулись с коварной проблемой логической неполноты. Данные, даже структурированные, часто ссылаются друг на друга, содержат внутренние сокращения и термины, смысл которых раскрывается в отдельных глоссариях.
С чем мы боролись: Модель, не видя связей между документами из разных доменов, начинала путаться. Два очень похожих по тексту НПА из разных сфер интерпретировались ею одинаково, что вело к фундаментальным ошибкам. Отсутствие «словаря терминов» в общей структуре данных резко снижало качество ответов. Мы осознали: нужен не просто архив файлов, а цельный, связанный корпус знаний. Без специального механизма обеспечения полноты данные остаются набором разрозненных текстов, а не надежной базой для ИИ.
В динамичном бизнесе нормативная база и условия оказания услуг меняются постоянно. Мы обнаружили, что часть данных, загруженных в систему, уже неактуальна. Представьте: чат-бот на сайте уверенно рассказывает клиенту об условиях услуги, которые изменились вчера. Последствия — введенные в заблуждение клиенты, репутационный ущерб и финансовые риски.
Наш урок: Неактуальные данные не просто бесполезны — они опасны. LLM, сталкиваясь с противоречиями между старой и новой информацией в своей «памяти», начинает «галлюцинировать», выдавая непредсказуемые и ошибочные ответы. Гарантировать актуальность оказалось задачей, сравнимой с обслуживанием движущегося поезда.
Качество — это не только свежесть и полнота, но и внутренняя гармония. Мы недооценили критическую важность согласованности данных. Внутри одного набора могли соседствовать разные форматы дат, кодировки, стили изложения. Но хуже того — в логических бизнес-процессах, выстроенных на основе нормативов, мы находили прямые противоречия между документами.
Вопрос, который нас преследовал: Что должна выдать модель, если в ее основе лежат взаимоисключающие указания? Ответ: ничего хорошего. Она либо выбирала случайный вариант, либо генерировала третий, придуманный, что было неприемлемо для репутации компании.
Самое сложное началось, когда мы попытались навести порядок. Мы решили внедрить инструменты контроля качества данных. И столкнулись с главным организационным барьером: непонятно, кто отвечает за истину.
Данные в компании проходят долгий путь: они рождаются в одном отделе, обогащаются в другом, трансформируются в третьем, оседают в различных хранилищах (в том же Hadoop). Когда в финальной точке обнаруживается проблема (неполнота, противоречие), начинается бесконечный поиск виноватого. Кто сгенерировал ошибку [3]? Кто ее усугубил при трансформации? Куда смотрела мастер-система? Как нет мастер-система? Ответственные за отдельные узлы этого тракта данных найти удавалось, но общая картина и единый «хозяин» качества данных отсутствовали. Без этого любой фреймворк проверки качества висел в воздухе.
Мы пришли к выводу, что подготовка данных для ИИ — это в первую очередь инженерная и организационная задача. Недостаточно просто взять «сырые» данные и загрузить их в модель. Нужна продуманная структура и механизмы, которые на постоянной основе обеспечивают полноту, актуальность, согласованность и достоверность информации.
В следующей, заключительной части, мы расскажем о том, к какому решению мы пришли. Речь пойдет о фреймворке, который объединяет принципы «Фабрики Данных», архитектуру Data Mesh для распределения ответственности, инструменты отслеживания происхождения данных (Data Lineage) и, наконец, встроенные инструменты проверки их качества.
До встречи!
Автор: Lastro
Источник [4]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/22867
URLs in this post:
[1] интеллекта: http://www.braintools.ru/article/7605
[2] В первой части: https://habr.com/ru/articles/969094/
[3] ошибку: http://www.braintools.ru/article/4192
[4] Источник: https://habr.com/ru/articles/974288/?utm_source=habrahabr&utm_medium=rss&utm_campaign=974288
Нажмите здесь для печати.