Кто такой инженер по обеспечению качества данных и почему без него уже не обойтись?

Современный бизнес переживает очередную трансформацию под влиянием информационных технологий. Он движется от стадии слепого принятия концепций больших данных (Big data) и искусственного интеллекта ^[1] к более осознанной работе с информацией. На этом фоне появляются новые профессии, такие как инженер по обеспечению качества данных — data quality assurance engineer, или просто инженер DQ, как часто указывают в вакансиях. Почему эта профессия на пике востребованности, где она нужна и кому легче освоить её прямо сейчас? На эти и другие вопросы отвечают эксперты российской ИТ-компании «Криптонит»: руководитель департамента тестирования Александр Гречин и ведущий инженер по тестированию качества данных Вероника Казакова.

Как и в любой профессиональной среде, у специалистов по работе с данными есть своя терминология. Мы подготовили краткий глоссарий, чтобы говорить с вами на одном языке:

Метаданные, или «данные о данных» — это их происхождение (источник), формат, время создания, правила обработки и контроля качества. Например, к нам загружаются таблицы с данными о компании (ИНН, названием компании, коды ОКВЭД и так далее). Здесь метаданные — это атрибуты таблицы (какие колонки мы загружаем, какой в них тип данных, обязательно ли их заполнение, какие правила мы накладываем на значения.

Пайплайны (data pipelines): автоматизированные последовательности получения, преобразования и перемещения данных из источников в хранилища. Пайплайны работают как конвейеры, подготавливающие сырые данные для их дальнейшего анализа.

Data driven — стратегия управления компанией на основе анализа данных.

Дата-контракты (data contracts) — соглашения между поставщиком и потребителем данных. Это набор метрик и правил о предоставлении данных в определённом формате и с оговорённой частотой обновления.

CI/CD (Continuous Integration/Continuous Delivery/Deployment) — это набор практик, автоматизирующих сборку, тестирование и доставку кода. Инженер по качеству данных использует их, чтобы автоматически проверять целостность данных и работоспособность пайплайнов.

LLM (large language model, большая языковая модель) — это тип программы искусственного интеллекта, которая может распознавать и генерировать текст.

В чём отличие новой профессии от классического тестировщика?

Александр: Чтобы понять суть новой специализации, нужно чётко разделить сферы ответственности. Классический тестировщик и инженер качества данных смотрят на продукт под разными углами. Если тестировщик ищет баги в логике ^[2] приложения, то инженер DQ ищет аномалии в данных, поступающих в это приложение. Я бы обозначил профессию как нечто промежуточное между инженером по функциональному тестированию и дата-аналитиком, который очень хорошо погружен в процессы.

Вероника: Да, обычный тестировщик проверяет, правильно ли работает программа: кнопки, заложенную логику, взаимодействие с бэкендом. Он имитирует действия пользователя. Инженер качества данных проверяет, правильные ли данные попадают в эту программу. Это принципиально иной объект проверки — не код, а сама информация: статистика, транзакции, данные о клиентах. Ошибка ^[3] может возникнуть не из-за сломанного разработчиком кода, а потому что данные пришли из внешнего источника уже в неверном формате. Это не разовая задача, а постоянный мониторинг. Нужно регулярно контролировать поступающие данные и актуализировать пул проверок.

Как инженер DQ понимает, что данные качественные? Какими критериями измеряется качество данных?

Вероника: Как и в любой инженерной дисциплине, в работе с качеством данных используются измеримые показатели. Мы смотрим на две базовые метрики. Первая — полнота: все ли данные приехали, ничего ли мы не потеряли при загрузке. Вторая — своевременность: уложились ли мы в регламентное окно загрузки (например, в час, а не в сутки).

Александр: Это важные критерии, но ими список не ограничивается. В идеальной картине мира специалисты также следят за консистентностью данных (их непротиворечивостью) и используют современный стек инструментов, который позволяет автоматизировать рутину.

То есть, как и у обычного тестировщика, здесь есть свои средства автоматизации?

Вероника: Для автоматизации проверок мы используем библиотеку Great Expectations. Правила, написанные в ней, запускаются по расписанию в Airflow, а результаты мониторинга выгружаются в дашборды. Мы планируем внедрение каталога OpenMetadata, который будет хранить метаданные, отчёты о качестве данных.

Кажется, что потребность контролировать качество данных была всегда. Почему же профессия инженера по обеспечению качества данных становится востребованной именно сейчас?

Александр: Объёмы и масштабы теперь другие. Понятие Big Data уже несколько лет как мейнстрим. Поначалу все стремились просто собирать как можно больше данных соответственно тезису «данные — новая нефть». Сейчас пришло понимание, что более конкурентоспособной становится не та компания, у которой данных больше, а та, у которой они достовернее, актуальнее.

Вероника: Бизнес прошёл через болезненный этап «слепого использования» больших данных и понял, что без контроля качества любые, даже самые продвинутые модели и отчёты бесполезны.

Кто делал работу по оценке качества данных до появления профильного специалиста?

Александр: До появления инженера DQ его функции выполняли либо дата-аналитик, либо разработчик, либо… сам заказчик. Заказчик на продакшене ловил проблемы с качеством данных, а «шишки» летели в аналитика. Конечно, так быть не должно. Сейчас ситуация меняется. Компании переходят к модели Data Driven не на словах, а на деле, понимая, что ошибки в данных ведут к прямым финансовым потерям.

Вероника: Я бы выделила тренды, способствующие росту востребованности. Это использование дата-каталогов, внедрение дата-контрактов, а также встраивание мониторинга качества прямо в CI/CD-процессы. То есть, в современном бизнесе проверка данных становится обязательной частью поставки продукта.

К каким изменениям на рынке привела такая смена подходов к работе с данными?

Вероника: В 2025 отмечался общий спад на российском ИТ-рынке. При этом спрос на узкоспециализированные кадры в сфере ИТ достаточно высок ^[4]. Также и DQ-специалисты остаются востребованными. Причём спрос, судя по тренду, будет расти ^[5]. Кандидатов на вакансию инженера по обеспечению качества данных при этом гораздо меньше, чем на позицию обычного тестировщика. Многие просто не знают о таком направлении.

Как для вас выглядит профиль идеального кандидата и где искать таких специалистов?

Вероника: базовый набор компетенций такого соискателя для меня выглядит так: отличное знание SQL, понимание процессов ETL и архитектуры данных, опыт ^[6] работы с инструментами Big Data (Airflow, kafka, Spark, хранилища данных). Python — опционально, но полезно для автоматизации. Знание специализированных DQ-инструментов (вроде Great Expectations, или Soda) — большой плюс, но на старте это редкость.

Александр: По сути, ядро хард-скиллов инженера DQ сильно пересекается с навыками дата-аналитика. Однако ключевое отличие — в процессном мышлении ^[7]. Я бы обозначил этого специалиста как нечто промежуточное между тестировщиком и дата-аналитиком. Тестировщик приносит понимание процессов обеспечения качества: как искать места, где система может «упасть». Аналитик приносит понимание бизнес-ценности данных. Однако аналитику часто не хватает процессности, а тестировщику — навыков работы с Big Data. Инженер DQ — это своеобразный симбиоз, «человек-мост».

Мнения наших спикеров о том, кого проще переучить на инженера по обеспечению качества данных, разделились. Вероника считает, что путь аналитика данных проще. Александр же делает ставку на процессное мышление тестировщиков, отмечая, что понимание цепочки движения данных нарабатывается дольше.

Какие социально-психологические компетенции, так называемые soft skills актуальны инженеру DQ?

Александр: Думаю, что прошла та эпоха, когда достаточно было просто взять интроверта, и дать ему возможность нажимать на кнопки. Сейчас нужен человек, который не просто хорошо владеет техническими инструментами, а умеет донести свою мысль и аргументировать свою точку зрения ^[8]. Системное мышление и проактивность для него также обязательны. Нужно не просто фиксировать инциденты, а понимать, как сделать так, чтобы не допускать их в будущем, или хотя бы снизить частоту инцидентов.

Вероника: В этой профессии нужны отличные коммуникативные навыки и даже дипломатия. Инженеру по обеспечению качества данных придётся общаться с командами источников данных, разработчиками, с представителями бизнеса. Ему, вероятно, придётся доказывать эффективность своей работы, которая не всегда видна невооружённым глазом. Ещё важно говорить на языке собеседника и уметь видеть проблему его глазами: дата-сайентисту надо говорить про качество обучающих выборок, владельцу продукта — про достоверность отчётов и так далее.

Какие реальные истории помогают понять важность профессии инженера DQ?

Вероника: Отсутствие инженера DQ в крупных компаниях буквально приводит к потерям. Самый показательный пример — финансовая отчётность. Если в данных об объёмах продаж, ценах или кредитах будут ошибки, это приведёт к некорректным отчётам. Как следствие — будут приняты неверные управленческие решения и возникнут прямые финансовые потери. Именно инженер DQ обеспечивает доверие к отчётам. Кроме того, автоматизация его проверок ускоряет аналитику: бизнес гораздо быстрее получает доступ к проверенным данным.

Александр: На сайте IBM описан интересный случай ^[9] трансформации бизнес-процессов компании Autodesk. Если кратко, то разработчики и аналитики Autodesk последними узнавали о проблемах с данными (недоступность источников данных, ошибки в значениях, сбои в пайплайнах). Иногда с момента возникновения ошибки до её обнаружения проходило более месяца. Это вынуждало команду постоянно «тушить пожары», тратя ресурсы на перезапуски процессов и исправление решений, уже принятых на основе неверных или неполных данных. Речь идёт не только о прямых убытках, но и о потерянном времени команды, которое могло быть потрачено на развитие продукта.

Можно ли количественно оценить эффект работы инженера DQ?

Александр: Да, мне встречались такие оценки. По данным MIT Sloan ^[10], компании теряют от 15% до 25% своей выручки из-за низкого качества данных, что проявляется в неэффективном маркетинге, ошибках в логистике и принятии неверных стратегических решений. Более того, до 80% проектов AI/ML терпят неудачу из-за “потенциального отсутствия точности данных”. Как отмечается в исследовании Data Fortune ^[11], инженеры тратят около 60% своего времени на очистку данных вместо разработки инноваций.

Что ждёт профессию инженера DQ в будущем?

Вероника: Думаю, что в ближайшие три года мы увидим популяризацию профессии. Я надеюсь, что такой специалист станет обязательным участником любой команды разработки в сфере Big Data, наравне с дата-инженером и аналитиком. В более отдалённой перспективе, возможно, произойдёт слияние с дата-инжинирингом. Тогда появится специалист, отвечающий и за доставку данных, и за их качество.

Александр: Пожалуй, взрывного роста не будет, но он и не нужен. Это постепенное, но неуклонное осознание рынком необходимости качества. Посмотрите на тренд с большими языковыми моделями. Сейчас все удивляются их возможностям, но следующим этапом станет отбраковка плохих моделей, которые слишком «галлюцинируют». И здесь снова понадобятся специалисты, способные оценить качество обучающих выборок. Data Quality — неотъемлемая часть любой современной системы, особенно в контексте больших данных.

По мере увеличения объёма и количества источников данных, компаниям потребовался новый специалист. Тот, кто следит не за работой кода, а за достоверностью загружаемых и обрабатываемых данных. Сейчас профессия инженера по обеспечению качества данных выглядит очень перспективной. В новой нише пока сложился «рынок соискателя»: число вакансий превышает число отправляемых на них резюме. Возможно, с течением времени профессия инженера DQ также трансформируется, но вряд ли она исчезнет. Всегда будет потребность ^[12] в людях, способных отделить зёрна от плевел в бескрайнем информационном поле. Раньше говорили: «Кто владеет информацией, владеет миром!». Сейчас уже стали уточнять: кто владеет актуальной и качественной информацией.

Автор: AI-SHA

Источник ^[13]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/27640

URLs in this post:

[1] интеллекта: http://www.braintools.ru/article/7605

[2] логике: http://www.braintools.ru/article/7640

[3] Ошибка: http://www.braintools.ru/article/4192

[4] высок: https://expert.ru/amp/promishlennost/desyat-rezyume-na-odnu-vakansiyu-spros-na-it-spetsialistov-padaet/

[5] расти: https://www.itweek.ru/management/article/detail.php?ID=234070

[6] опыт: http://www.braintools.ru/article/6952

[7] мышлении: http://www.braintools.ru/thinking

[8] зрения: http://www.braintools.ru/article/6238

[9] случай: https://www.ibm.com/case-studies/autodesk

[10] MIT Sloan: https://www.integrate.io/blog/data-quality-improvement-stats-from-etl/

[11] Data Fortune: https://datafortune.com/5-hidden-costs-of-poor-data-quality/

[12] потребность: http://www.braintools.ru/article/9534

[13] Источник: https://habr.com/ru/companies/kryptonite/articles/1014180/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1014180

Нажмите здесь для печати.