- BrainTools - https://www.braintools.ru -
Недавно мы в Beeline Cloud [1] писали о том, как гонка за «общим ИИ» вывела дата-сайентистов и специалистов по машинному обучению [2] в топ самых высокооплачиваемых профессий [3]. Не отстают от них и инженеры данных: ниже рассказываем, за что компании высоко ценят таких специалистов и какую открытую литературу можно почитать начинающим дата-инженерам на старте карьеры и продвинутым специалистам — чтобы «держать руку на пульсе».
В прошлом году научно-популярный журнал MIT Technological Review провел опрос [4] среди 400 руководителей компаний с ежегодным доходом более 500 млн долларов [на вопросы отвечали ИТ-директора, старшие аналитики и другие технические специалисты]. Больше 70% респондентов были убеждены, что инженеры данных «жизненно необходимы» для нормальной работы их организации. Именно они выстраивают инфраструктуру для сбора, хранения и обработки «сырых» данных, структурируют их для аналитиков. И их деятельность отражается на ключевых показателях бизнеса, что подтверждают научные работы. Например, в такому выводу пришли британские исследователи, которые изучили [5] процессы 500 предприятий среднего бизнеса в Великобритании и ранжировали их по степени использования клиентских данных и аналитики при принятии решений. Компании, предпочитающие стратегии управления на основе данных (первый квартиль), оказались на 13% продуктивнее и зарабатывали больше, по сравнению с компаниями из нижнего квартиля.
Эти выводы подтвердили специалисты из Гарвардской школы бизнеса в 2022 году. Совместно с коллегами из Google они опросили [6] более трехсот руководителей компаний из технологической, финансовой, медицинской и производственной сфер. Организации, которые принимали решения на основе данных и аналитических инструментов на базе систем ИИ, демонстрировали более высокую прибыльность, уровень удовлетворенности клиентов и сотрудников, а также занимали большую долю рынка по сравнению с организациями, где решения принимались лишь «на основе личного опыта [7] и ощущений».
Согласно же отчету MIT Technological Review, доля времени, которую специалисты по данным ежедневно тратят на работу с ИИ-системами — включая подготовку данных для обучения моделей — практически удвоилась [4] за последние несколько лет: с 19% в 2023 году до 37% в 2025-м. Аналитики ожидают, что в ближайшие два года этот показатель вырастет до 61%, и значимость работы инженеров данных только возрастет.
При этом уже сегодня в индустрии происходит сдвиг [8] — таких специалистов все чаще вовлекают в процессы принятия значимых бизнес-решений. Рост значимости инженеров данных отражается и на размерах зарплат в данной области. В США на старших позициях такие специалисты могут получать [9] порядка 10 тыс. долларов ежемесячно. В России эта цифра также остается достаточно высокой по местным меркам — инженеры данных зарабатывают [10] до 450 тыс. рублей в месяц.
Учитывая сложившиеся тенденции и рост интереса [11] к инженерии данных, мы подготовили подборку ресурсов, которые помогут погрузиться в эту тему и «держать руку на пульсе».
Руководство для инженера данных (The Data Engineering Cookbook [12]). Открытая книга, которая распространяется по лицензии Apache 2.0. Ее написал Андреас Кретц, разработчик онлайн-платформы для обучения дата-инженеров. Однако эту «поваренную книгу» все же сложно назвать книгой в привычном понимании. Это, скорее, мультимедийный сборник, в котором перемежаются написанные автором статьи и материалы в других форматах — например, подборки полезных сайтов, ссылки на видеоруководства, интервью с практикующими инженерами данных, разборы практических кейсов и не только.
В целом к книге можно относиться как к электронному справочнику для начинающих инженеров данных, который может быть полезен для решения конкретных задач. Даже сам автор отмечает, что книгу нет смысла читать «от корки до корки» — целесообразнее выбирать отдельные интересные темы.
И выбрать есть из чего — книга объемная, при этом поделена на два фундаментальных раздела: базовый и продвинутый. В первом автор собрал информацию буквально понемногу обо всем: он и разбирает основы Linux, и учит работе с контейнерами, и рассказывает про гибридное облако, и затрагивает общие вопросы вроде культуры программирования. Второй блок посвящен непосредственно инженерии данных: аналитическим платформам, хранилищам, визуализаторам, машинному обучению. Автор разбирает процессные фреймворки, сравнивает архитектуры Lambda и Kappa. Также автор приводит чек-лист из 81 вопроса, которые помогут выбрать подходящую платформу и конвейер для будущего проекта.
Что касается видеоруководств, то их темы достаточно разнообразны. В одном из них Андреас рассказывает, как мониторить данные с помощью инструмента dbt, а в другом — разбирает сложности, которые могут возникнуть при развертке и управлении данными в Apache Airflow.
Инженерия данных для больших языковых моделей: архитектура, алгоритмы и практика реализации проектов (Data Engineering for Large Models: Architecture, Algorithms, and Project Practice [13]). Это — онлайн-справочник, который подготовили студенты магистратуры Научно-технического университета Китая. В первую очередь он посвящен построению конвейеров обработки данных при работе с большими языковыми моделями. По словам авторов, полезная информация по теме практически не структурирована — часто крупицы знаний приходится собирать по всему интернету. Поэтому они начали делать собственные заметки, а затем систематизировали их в формате цифровой книги.
Она покрывает основные моменты разработки интеллектуальных систем: предобучение, работу с синтетическими данными и данными разной модальности, процессы выравнивания БЯМ (LLM) и многое другое. Авторы начинают с самых основ и рассказывают, как выбрать подходящий стек. Затем переходят к более продвинутым вещам: как проводить сбор данных, используя краулеры и общедоступные архивы, как обрабатывать неструктурированные данные (в том числе в форматах видео и аудио), как настраивать векторные хранилища. Разумеется, все это с примерами из практики, кусочками кода и диаграммами.
В конце книги приведены задания (с инструкциями), которые можно попробовать реализовать самостоятельно и отточить навыки. Например, в одном из них необходимо настроить конвейер обработки данных, поступающих из свода данных C4 (Colossal Clean Crawled Corpus), а в другом — реализовать метод Program-of-Thoughts для больших языковых моделей, который применяется при решении математических задач и задач программирования.
Поскольку справочник был подготовлен студентами, он, очевидно, ориентирован на начинающих инженеров данных, хотя может быть полезен исследователям и менеджерам на ИИ-проектах. Однако стоит отметить, что изначально текст книги был написан на китайском, и авторы использовали [14] нейросеть для перевода на английский, поэтому в тексте могут встречаться небольшие неточности — но их исправляют совместно с комьюнити (текст выложен на GitHub [15] под лицензией MIT — там можно обсудить и предложения по материалу).
Аналитические и технические отчеты по инженерии данных (Data Engineering Whitepapers [16]). Это — список [16] научных публикаций и исследований, который курирует Саймон Шпэти, инженер данных с 20-летним стажем и автор профильного блога SSP Data. Подборка пригодится не только начинающим инженерам данных, но и тем, кто уже давно «варится» в этой сфере, так как поможет оставаться в курсе актуальных тенденций.
Репозиторий создан в январе 2024 года, и с тех пор автор собрал в нем больше 50 материалов — о подходах к хранению «сырых» данных, распределенных и OLAP-системах, озерах и так далее. Отдельные статьи посвящены работе с аналитической СУБД DuckDB. Если говорить о конкретных примерах, то в подборке есть материал [17] от команды исследователей из Google, который поясняет принцип работы Dremel — масштабируемой системы для анализа вложенных данных. Или вот — работа [18] исследователей из Калифорнийского университета, посвященная фреймворку Spark для кластерных вычислений с переиспользованием наборов данных.
Еще в базе знаний можно найти текст [19] исследователей из Стэнфордского и Калифорнийского университетов, в котором они разбирают архитектурный подход к хранению и обработке данных Lakehouse (и насколько он готов заменить традиционные хранилища данных). Есть отдельный подраздел [20] с исследованиями, посвященными RAG-системам, — например, сокращению количества галлюцинаций [21] или внедрению графов знаний [22].
Инструментарий для инженерии данных (The Data Engineering Toolkit [23]). Еще одна подборка материалов от Саймона Шпэти, но на этот раз с инструментами для инженеров данных. По словам автора, в список вошли технологии, утилиты и даже полезные консольные команды для Linux (всего их порядка семидесяти), которые помогут стать успешным инженером данных. Все они разбиты на группы — например, среды разработки, инструменты из Python- и SQL-экосистемы, решения для бизнес-аналитики или построения конвейеров данных для развертки систем ИИ. В последнем случае автор рассказывает, что такое и зачем нужен MCP-протокол, в чем суть эмбеддингов и какие существуют популярные векторные СУБД.
Также на сайте можно найти хранилище дата-инженера [24] — «сеть знаний» с интерактивным графом, которая пригодится для углубленного изучения концепций, с которыми сталкиваются инженеры данных. По сути, это — система, объединяющая более 1000 терминов для изучения.
Beeline Cloud [1] — безопасный облачный провайдер. Разрабатываем облачные решения, чтобы вы предоставляли клиентам лучшие сервисы.
Что еще почитать в нашем блоге и медиа «вАЙТИ»:
Автор: beeline_cloud
Источник [28]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/27902
URLs in this post:
[1] Beeline Cloud: https://cloud.beeline.ru/?utm_source=owned_media&utm_medium=habr&utm_campaign=beeline_cloud&utm_term=dataeng
[2] обучению: http://www.braintools.ru/article/5125
[3] самых высокооплачиваемых профессий: https://habr.com/ru/companies/beeline_cloud/articles/1013380/
[4] опрос: https://publish-p57963-e462098.adobeaemcloud.com/content/dam/snowflake-site/en/landing-pages/redefining-data-engineering-in-the-age-of-ai/redefining-data-engineering-in-the-age-of-ai.pdf
[5] изучили: https://media.nesta.org.uk/documents/1405_the_analytical_firm_-_final.pdf
[6] опросили: https://hbr.org/resources/pdfs/comm/google/TransformingData.pdf
[7] опыта: http://www.braintools.ru/article/6952
[8] происходит сдвиг: https://thenewstack.io/from-etl-to-autonomy-data-engineering-in-2026/
[9] могут получать: https://www.elevano.com/blog/how-much-a-data-engineer-make/
[10] зарабатывают: https://career.hh.ru/profession/7?grade=SENIOR
[11] интереса: http://www.braintools.ru/article/4220
[12] The Data Engineering Cookbook: https://github.com/andkret/Cookbook
[13] Data Engineering for Large Models: Architecture, Algorithms, and Project Practice: https://datascale-ai.github.io/data_engineering_book/en/
[14] использовали: https://news.ycombinator.com/item?id=47008163
[15] на GitHub: https://github.com/datascale-ai/data_engineering_book
[16] Data Engineering Whitepapers: https://www.ssp.sh/brain/data-engineering-whitepapers/
[17] материал: https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/36632.pdf
[18] работа: https://www.usenix.org/legacy/event/hotcloud10/tech/full_papers/Zaharia.pdf
[19] текст: https://www.cidrdb.org/cidr2021/papers/cidr2021_paper17.pdf
[20] подраздел: https://www.ssp.sh/brain/ai-whitepapers/
[21] сокращению количества галлюцинаций: https://arxiv.org/pdf/2312.10997
[22] графов знаний: https://arxiv.org/pdf/2404.17723
[23] The Data Engineering Toolkit: https://www.ssp.sh/brain/data-engineering-toolkit/
[24] хранилище дата-инженера: https://www.ssp.sh/brain/data-engineering/
[25] Не будите хотя бы в выходные! Связь сна и продуктивности — исследования: https://habr.com/ru/companies/beeline_cloud/articles/1007132/
[26] Как настроить автоматический мониторинг качества данных: https://vaiti.io/monitoring-kachestva-dannyh/
[27] Как проверить, нужна ли еще витрина данных: https://vaiti.io/kak-proverit-nuzhna-li-eshhe-vitrina-dannyh/
[28] Источник: https://habr.com/ru/companies/beeline_cloud/articles/1014908/?utm_campaign=1014908&utm_source=habrahabr&utm_medium=rss
Нажмите здесь для печати.