Недавно мы в Beeline Cloud писали о том, как гонка за «общим ИИ» вывела дата-сайентистов и специалистов по машинному обучению в топ самых высокооплачиваемых профессий. Не отстают от них и инженеры данных: ниже рассказываем, за что компании высоко ценят таких специалистов и какую открытую литературу можно почитать начинающим дата-инженерам на старте карьеры и продвинутым специалистам — чтобы «держать руку на пульсе».
Инженеры данных в тренде
В прошлом году научно-популярный журнал MIT Technological Review провел опрос среди 400 руководителей компаний с ежегодным доходом более 500 млн долларов [на вопросы отвечали ИТ-директора, старшие аналитики и другие технические специалисты]. Больше 70% респондентов были убеждены, что инженеры данных «жизненно необходимы» для нормальной работы их организации. Именно они выстраивают инфраструктуру для сбора, хранения и обработки «сырых» данных, структурируют их для аналитиков. И их деятельность отражается на ключевых показателях бизнеса, что подтверждают научные работы. Например, в такому выводу пришли британские исследователи, которые изучили процессы 500 предприятий среднего бизнеса в Великобритании и ранжировали их по степени использования клиентских данных и аналитики при принятии решений. Компании, предпочитающие стратегии управления на основе данных (первый квартиль), оказались на 13% продуктивнее и зарабатывали больше, по сравнению с компаниями из нижнего квартиля.
Эти выводы подтвердили специалисты из Гарвардской школы бизнеса в 2022 году. Совместно с коллегами из Google они опросили более трехсот руководителей компаний из технологической, финансовой, медицинской и производственной сфер. Организации, которые принимали решения на основе данных и аналитических инструментов на базе систем ИИ, демонстрировали более высокую прибыльность, уровень удовлетворенности клиентов и сотрудников, а также занимали большую долю рынка по сравнению с организациями, где решения принимались лишь «на основе личного опыта и ощущений».
Согласно же отчету MIT Technological Review, доля времени, которую специалисты по данным ежедневно тратят на работу с ИИ-системами — включая подготовку данных для обучения моделей — практически удвоилась за последние несколько лет: с 19% в 2023 году до 37% в 2025-м. Аналитики ожидают, что в ближайшие два года этот показатель вырастет до 61%, и значимость работы инженеров данных только возрастет.
При этом уже сегодня в индустрии происходит сдвиг — таких специалистов все чаще вовлекают в процессы принятия значимых бизнес-решений. Рост значимости инженеров данных отражается и на размерах зарплат в данной области. В США на старших позициях такие специалисты могут получать порядка 10 тыс. долларов ежемесячно. В России эта цифра также остается достаточно высокой по местным меркам — инженеры данных зарабатывают до 450 тыс. рублей в месяц.
Учитывая сложившиеся тенденции и рост интереса к инженерии данных, мы подготовили подборку ресурсов, которые помогут погрузиться в эту тему и «держать руку на пульсе».
Открытая литература
Руководство для инженера данных (The Data Engineering Cookbook). Открытая книга, которая распространяется по лицензии Apache 2.0. Ее написал Андреас Кретц, разработчик онлайн-платформы для обучения дата-инженеров. Однако эту «поваренную книгу» все же сложно назвать книгой в привычном понимании. Это, скорее, мультимедийный сборник, в котором перемежаются написанные автором статьи и материалы в других форматах — например, подборки полезных сайтов, ссылки на видеоруководства, интервью с практикующими инженерами данных, разборы практических кейсов и не только.
В целом к книге можно относиться как к электронному справочнику для начинающих инженеров данных, который может быть полезен для решения конкретных задач. Даже сам автор отмечает, что книгу нет смысла читать «от корки до корки» — целесообразнее выбирать отдельные интересные темы.
И выбрать есть из чего — книга объемная, при этом поделена на два фундаментальных раздела: базовый и продвинутый. В первом автор собрал информацию буквально понемногу обо всем: он и разбирает основы Linux, и учит работе с контейнерами, и рассказывает про гибридное облако, и затрагивает общие вопросы вроде культуры программирования. Второй блок посвящен непосредственно инженерии данных: аналитическим платформам, хранилищам, визуализаторам, машинному обучению. Автор разбирает процессные фреймворки, сравнивает архитектуры Lambda и Kappa. Также автор приводит чек-лист из 81 вопроса, которые помогут выбрать подходящую платформу и конвейер для будущего проекта.
Что касается видеоруководств, то их темы достаточно разнообразны. В одном из них Андреас рассказывает, как мониторить данные с помощью инструмента dbt, а в другом — разбирает сложности, которые могут возникнуть при развертке и управлении данными в Apache Airflow.
Инженерия данных для больших языковых моделей: архитектура, алгоритмы и практика реализации проектов (Data Engineering for Large Models: Architecture, Algorithms, and Project Practice). Это — онлайн-справочник, который подготовили студенты магистратуры Научно-технического университета Китая. В первую очередь он посвящен построению конвейеров обработки данных при работе с большими языковыми моделями. По словам авторов, полезная информация по теме практически не структурирована — часто крупицы знаний приходится собирать по всему интернету. Поэтому они начали делать собственные заметки, а затем систематизировали их в формате цифровой книги.
Она покрывает основные моменты разработки интеллектуальных систем: предобучение, работу с синтетическими данными и данными разной модальности, процессы выравнивания БЯМ (LLM) и многое другое. Авторы начинают с самых основ и рассказывают, как выбрать подходящий стек. Затем переходят к более продвинутым вещам: как проводить сбор данных, используя краулеры и общедоступные архивы, как обрабатывать неструктурированные данные (в том числе в форматах видео и аудио), как настраивать векторные хранилища. Разумеется, все это с примерами из практики, кусочками кода и диаграммами.
В конце книги приведены задания (с инструкциями), которые можно попробовать реализовать самостоятельно и отточить навыки. Например, в одном из них необходимо настроить конвейер обработки данных, поступающих из свода данных C4 (Colossal Clean Crawled Corpus), а в другом — реализовать метод Program-of-Thoughts для больших языковых моделей, который применяется при решении математических задач и задач программирования.
Поскольку справочник был подготовлен студентами, он, очевидно, ориентирован на начинающих инженеров данных, хотя может быть полезен исследователям и менеджерам на ИИ-проектах. Однако стоит отметить, что изначально текст книги был написан на китайском, и авторы использовали нейросеть для перевода на английский, поэтому в тексте могут встречаться небольшие неточности — но их исправляют совместно с комьюнити (текст выложен на GitHub под лицензией MIT — там можно обсудить и предложения по материалу).
Базы знаний
Аналитические и технические отчеты по инженерии данных (Data Engineering Whitepapers). Это — список научных публикаций и исследований, который курирует Саймон Шпэти, инженер данных с 20-летним стажем и автор профильного блога SSP Data. Подборка пригодится не только начинающим инженерам данных, но и тем, кто уже давно «варится» в этой сфере, так как поможет оставаться в курсе актуальных тенденций.
Репозиторий создан в январе 2024 года, и с тех пор автор собрал в нем больше 50 материалов — о подходах к хранению «сырых» данных, распределенных и OLAP-системах, озерах и так далее. Отдельные статьи посвящены работе с аналитической СУБД DuckDB. Если говорить о конкретных примерах, то в подборке есть материал от команды исследователей из Google, который поясняет принцип работы Dremel — масштабируемой системы для анализа вложенных данных. Или вот — работа исследователей из Калифорнийского университета, посвященная фреймворку Spark для кластерных вычислений с переиспользованием наборов данных.
Еще в базе знаний можно найти текст исследователей из Стэнфордского и Калифорнийского университетов, в котором они разбирают архитектурный подход к хранению и обработке данных Lakehouse (и насколько он готов заменить традиционные хранилища данных). Есть отдельный подраздел с исследованиями, посвященными RAG-системам, — например, сокращению количества галлюцинаций или внедрению графов знаний.
Инструментарий для инженерии данных (The Data Engineering Toolkit). Еще одна подборка материалов от Саймона Шпэти, но на этот раз с инструментами для инженеров данных. По словам автора, в список вошли технологии, утилиты и даже полезные консольные команды для Linux (всего их порядка семидесяти), которые помогут стать успешным инженером данных. Все они разбиты на группы — например, среды разработки, инструменты из Python- и SQL-экосистемы, решения для бизнес-аналитики или построения конвейеров данных для развертки систем ИИ. В последнем случае автор рассказывает, что такое и зачем нужен MCP-протокол, в чем суть эмбеддингов и какие существуют популярные векторные СУБД.
Также на сайте можно найти хранилище дата-инженера — «сеть знаний» с интерактивным графом, которая пригодится для углубленного изучения концепций, с которыми сталкиваются инженеры данных. По сути, это — система, объединяющая более 1000 терминов для изучения.
Beeline Cloud — безопасный облачный провайдер. Разрабатываем облачные решения, чтобы вы предоставляли клиентам лучшие сервисы.
Что еще почитать в нашем блоге и медиа «вАЙТИ»:
Автор: beeline_cloud


