Выходные — для развития: Пара открытых книг и ресурсов для (глубокого) погружения в инженерию данных

Недавно мы в Beeline Cloud ^[1] писали о том, как гонка за «общим ИИ» вывела дата-сайентистов и специалистов по машинному обучению ^[2] в топ самых высокооплачиваемых профессий ^[3]. Не отстают от них и инженеры данных: ниже рассказываем, за что компании высоко ценят таких специалистов и какую открытую литературу можно почитать начинающим дата-инженерам на старте карьеры и продвинутым специалистам — чтобы «держать руку на пульсе».

Изображение: Mark Williams (Unsplash License)

Инженеры данных в тренде

В прошлом году научно-популярный журнал MIT Technological Review провел опрос ^[4] среди 400 руководителей компаний с ежегодным доходом более 500 млн долларов [на вопросы отвечали ИТ-директора, старшие аналитики и другие технические специалисты]. Больше 70% респондентов были убеждены, что инженеры данных «жизненно необходимы» для нормальной работы их организации. Именно они выстраивают инфраструктуру для сбора, хранения и обработки «сырых» данных, структурируют их для аналитиков. И их деятельность отражается на ключевых показателях бизнеса, что подтверждают научные работы. Например, в такому выводу пришли британские исследователи, которые изучили ^[5] процессы 500 предприятий среднего бизнеса в Великобритании и ранжировали их по степени использования клиентских данных и аналитики при принятии решений. Компании, предпочитающие стратегии управления на основе данных (первый квартиль), оказались на 13% продуктивнее и зарабатывали больше, по сравнению с компаниями из нижнего квартиля.

Эти выводы подтвердили специалисты из Гарвардской школы бизнеса в 2022 году. Совместно с коллегами из Google они опросили ^[6] более трехсот руководителей компаний из технологической, финансовой, медицинской и производственной сфер. Организации, которые принимали решения на основе данных и аналитических инструментов на базе систем ИИ, демонстрировали более высокую прибыльность, уровень удовлетворенности клиентов и сотрудников, а также занимали большую долю рынка по сравнению с организациями, где решения принимались лишь «на основе личного опыта ^[7] и ощущений».

Согласно же отчету MIT Technological Review, доля времени, которую специалисты по данным ежедневно тратят на работу с ИИ-системами — включая подготовку данных для обучения моделей — практически удвоилась ^[4] за последние несколько лет: с 19% в 2023 году до 37% в 2025-м. Аналитики ожидают, что в ближайшие два года этот показатель вырастет до 61%, и значимость работы инженеров данных только возрастет.

При этом уже сегодня в индустрии происходит сдвиг ^[8] — таких специалистов все чаще вовлекают в процессы принятия значимых бизнес-решений. Рост значимости инженеров данных отражается и на размерах зарплат в данной области. В США на старших позициях такие специалисты могут получать ^[9] порядка 10 тыс. долларов ежемесячно. В России эта цифра также остается достаточно высокой по местным меркам — инженеры данных зарабатывают ^[10] до 450 тыс. рублей в месяц.

Учитывая сложившиеся тенденции и рост интереса ^[11] к инженерии данных, мы подготовили подборку ресурсов, которые помогут погрузиться в эту тему и «держать руку на пульсе».

Открытая литература

Руководство для инженера данных (The Data Engineering Cookbook ^[12]). Открытая книга, которая распространяется по лицензии Apache 2.0. Ее написал Андреас Кретц, разработчик онлайн-платформы для обучения дата-инженеров. Однако эту «поваренную книгу» все же сложно назвать книгой в привычном понимании. Это, скорее, мультимедийный сборник, в котором перемежаются написанные автором статьи и материалы в других форматах — например, подборки полезных сайтов, ссылки на видеоруководства, интервью с практикующими инженерами данных, разборы практических кейсов и не только.

В целом к книге можно относиться как к электронному справочнику для начинающих инженеров данных, который может быть полезен для решения конкретных задач. Даже сам автор отмечает, что книгу нет смысла читать «от корки до корки» — целесообразнее выбирать отдельные интересные темы.

И выбрать есть из чего — книга объемная, при этом поделена на два фундаментальных раздела: базовый и продвинутый. В первом автор собрал информацию буквально понемногу обо всем: он и разбирает основы Linux, и учит работе с контейнерами, и рассказывает про гибридное облако, и затрагивает общие вопросы вроде культуры программирования. Второй блок посвящен непосредственно инженерии данных: аналитическим платформам, хранилищам, визуализаторам, машинному обучению. Автор разбирает процессные фреймворки, сравнивает архитектуры Lambda и Kappa. Также автор приводит чек-лист из 81 вопроса, которые помогут выбрать подходящую платформу и конвейер для будущего проекта.

Изображение: Nurlan Zhaniyar (Unsplash License)

Что касается видеоруководств, то их темы достаточно разнообразны. В одном из них Андреас рассказывает, как мониторить данные с помощью инструмента dbt, а в другом — разбирает сложности, которые могут возникнуть при развертке и управлении данными в Apache Airflow.

Инженерия данных для больших языковых моделей: архитектура, алгоритмы и практика реализации проектов (Data Engineering for Large Models: Architecture, Algorithms, and Project Practice ^[13]). Это — онлайн-справочник, который подготовили студенты магистратуры Научно-технического университета Китая. В первую очередь он посвящен построению конвейеров обработки данных при работе с большими языковыми моделями. По словам авторов, полезная информация по теме практически не структурирована — часто крупицы знаний приходится собирать по всему интернету. Поэтому они начали делать собственные заметки, а затем систематизировали их в формате цифровой книги.

Она покрывает основные моменты разработки интеллектуальных систем: предобучение, работу с синтетическими данными и данными разной модальности, процессы выравнивания БЯМ (LLM) и многое другое. Авторы начинают с самых основ и рассказывают, как выбрать подходящий стек. Затем переходят к более продвинутым вещам: как проводить сбор данных, используя краулеры и общедоступные архивы, как обрабатывать неструктурированные данные (в том числе в форматах видео и аудио), как настраивать векторные хранилища. Разумеется, все это с примерами из практики, кусочками кода и диаграммами.

В конце книги приведены задания (с инструкциями), которые можно попробовать реализовать самостоятельно и отточить навыки. Например, в одном из них необходимо настроить конвейер обработки данных, поступающих из свода данных C4 (Colossal Clean Crawled Corpus), а в другом — реализовать метод Program-of-Thoughts для больших языковых моделей, который применяется при решении математических задач и задач программирования.

Поскольку справочник был подготовлен студентами, он, очевидно, ориентирован на начинающих инженеров данных, хотя может быть полезен исследователям и менеджерам на ИИ-проектах. Однако стоит отметить, что изначально текст книги был написан на китайском, и авторы использовали ^[14] нейросеть для перевода на английский, поэтому в тексте могут встречаться небольшие неточности — но их исправляют совместно с комьюнити (текст выложен на GitHub ^[15] под лицензией MIT — там можно обсудить и предложения по материалу).

Базы знаний

Аналитические и технические отчеты по инженерии данных (Data Engineering Whitepapers ^[16]). Это — список ^[16] научных публикаций и исследований, который курирует Саймон Шпэти, инженер данных с 20-летним стажем и автор профильного блога SSP Data. Подборка пригодится не только начинающим инженерам данных, но и тем, кто уже давно «варится» в этой сфере, так как поможет оставаться в курсе актуальных тенденций.

Репозиторий создан в январе 2024 года, и с тех пор автор собрал в нем больше 50 материалов — о подходах к хранению «сырых» данных, распределенных и OLAP-системах, озерах и так далее. Отдельные статьи посвящены работе с аналитической СУБД DuckDB. Если говорить о конкретных примерах, то в подборке есть материал ^[17] от команды исследователей из Google, который поясняет принцип работы Dremel — масштабируемой системы для анализа вложенных данных. Или вот — работа ^[18] исследователей из Калифорнийского университета, посвященная фреймворку Spark для кластерных вычислений с переиспользованием наборов данных.

Еще в базе знаний можно найти текст ^[19] исследователей из Стэнфордского и Калифорнийского университетов, в котором они разбирают архитектурный подход к хранению и обработке данных Lakehouse (и насколько он готов заменить традиционные хранилища данных). Есть отдельный подраздел ^[20] с исследованиями, посвященными RAG-системам, — например, сокращению количества галлюцинаций ^[21] или внедрению графов знаний ^[22].

Инструментарий для инженерии данных (The Data Engineering Toolkit ^[23]). Еще одна подборка материалов от Саймона Шпэти, но на этот раз с инструментами для инженеров данных. По словам автора, в список вошли технологии, утилиты и даже полезные консольные команды для Linux (всего их порядка семидесяти), которые помогут стать успешным инженером данных. Все они разбиты на группы — например, среды разработки, инструменты из Python- и SQL-экосистемы, решения для бизнес-аналитики или построения конвейеров данных для развертки систем ИИ. В последнем случае автор рассказывает, что такое и зачем нужен MCP-протокол, в чем суть эмбеддингов и какие существуют популярные векторные СУБД.

Также на сайте можно найти хранилище дата-инженера ^[24] — «сеть знаний» с интерактивным графом, которая пригодится для углубленного изучения концепций, с которыми сталкиваются инженеры данных. По сути, это — система, объединяющая более 1000 терминов для изучения.

Beeline Cloud ^[1] — безопасный облачный провайдер. Разрабатываем облачные решения, чтобы вы предоставляли клиентам лучшие сервисы.

Что еще почитать в нашем блоге и медиа «вАЙТИ»:

Автор: beeline_cloud

Источник ^[28]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/27902

URLs in this post:

[1] Beeline Cloud: https://cloud.beeline.ru/?utm_source=owned_media&utm_medium=habr&utm_campaign=beeline_cloud&utm_term=dataeng

[2] обучению: http://www.braintools.ru/article/5125

[3] самых высокооплачиваемых профессий: https://habr.com/ru/companies/beeline_cloud/articles/1013380/

[4] опрос: https://publish-p57963-e462098.adobeaemcloud.com/content/dam/snowflake-site/en/landing-pages/redefining-data-engineering-in-the-age-of-ai/redefining-data-engineering-in-the-age-of-ai.pdf

[5] изучили: https://media.nesta.org.uk/documents/1405_the_analytical_firm_-_final.pdf

[6] опросили: https://hbr.org/resources/pdfs/comm/google/TransformingData.pdf

[7] опыта: http://www.braintools.ru/article/6952

[8] происходит сдвиг: https://thenewstack.io/from-etl-to-autonomy-data-engineering-in-2026/

[9] могут получать: https://www.elevano.com/blog/how-much-a-data-engineer-make/

[10] зарабатывают: https://career.hh.ru/profession/7?grade=SENIOR

[11] интереса: http://www.braintools.ru/article/4220

[12] The Data Engineering Cookbook: https://github.com/andkret/Cookbook

[13] Data Engineering for Large Models: Architecture, Algorithms, and Project Practice: https://datascale-ai.github.io/data_engineering_book/en/

[14] использовали: https://news.ycombinator.com/item?id=47008163

[15] на GitHub: https://github.com/datascale-ai/data_engineering_book

[16] Data Engineering Whitepapers: https://www.ssp.sh/brain/data-engineering-whitepapers/

[17] материал: https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/36632.pdf

[18] работа: https://www.usenix.org/legacy/event/hotcloud10/tech/full_papers/Zaharia.pdf

[19] текст: https://www.cidrdb.org/cidr2021/papers/cidr2021_paper17.pdf

[20] подраздел: https://www.ssp.sh/brain/ai-whitepapers/

[21] сокращению количества галлюцинаций: https://arxiv.org/pdf/2312.10997

[22] графов знаний: https://arxiv.org/pdf/2404.17723

[23] The Data Engineering Toolkit: https://www.ssp.sh/brain/data-engineering-toolkit/

[24] хранилище дата-инженера: https://www.ssp.sh/brain/data-engineering/

[25] Не будите хотя бы в выходные! Связь сна и продуктивности — исследования: https://habr.com/ru/companies/beeline_cloud/articles/1007132/

[26] Как настроить автоматический мониторинг качества данных: https://vaiti.io/monitoring-kachestva-dannyh/

[27] Как проверить, нужна ли еще витрина данных: https://vaiti.io/kak-proverit-nuzhna-li-eshhe-vitrina-dannyh/

[28] Источник: https://habr.com/ru/companies/beeline_cloud/articles/1014908/?utm_campaign=1014908&utm_source=habrahabr&utm_medium=rss

Нажмите здесь для печати.