- BrainTools - https://www.braintools.ru -
Data Internals X 2025: взгляд изнутри на настоящее и будущее data-инженерии
Data Internals X 2025 [1] уже совсем скоро! 23 сентября начнётся профессиональное погружение в инженерию данных, системы хранения и обработки данных. Поэтому мы поговорили с членом программного комитета конференции Алексеем Жиряковым, чтобы узнать, что нас ждёт в этом году. Ведь лучший взгляд — это взгляд изнутри. Так лучше раскрывается опыт [2] создания data-инфраструктуры и многочисленные вызовы одной из самых быстроразвивающихся отраслей IT.

Меня зовут Алексей Жиряков, я член ПК Data Internals и давно живу в мире больших данных. Но чтобы понять, что в data-инженерии главное — это не просто накопление терабайтов информации, а эффективная обработка и хранение данных — мне понадобилось время. Ведь бюджеты — не резиновые, а экономия помогает бизнесу расти, высвобождая ресурсы на развитие. Остаётся не понаделать ошибок на этом пути или хотя бы свести их к минимуму, руководствуясь опытом экспертов отрасли. Для этого мы и собираем профессиональное сообщество, чтобы делиться секретами внутреннего устройства баз данных на production-масштабах, построением архитектур масштабируемых облачных сервисов, подходами к валидации и обеспечению качества данных.
В первую очередь мы ориентировались на:
дата инженеров, чтобы помогать решать даже самые сложные технические задачи;
архитекторов данных, чтобы выстраивать паттерны для больших систем;
техлидов, чтобы рассматривать возможности и ограничения технологий;
разработчиков СУБД, чтобы обсуждать инструменты работы с данными и делиться опытом по их использованию;
разработчиков и администраторов баз данных (DBA).
Я участвовал в формировании программы конференции, курировал докладчиков и узнал много интересного и полезного. Уже поделился этим со своей командой: на одном из созвонов мне жутко захотелось сразу же применить полученные знания оптимизации ClickHouse, до того были интересные подробности доклада. Так что уверен, что практический опыт докладчиков и глубина их решений помогут погрузиться в обычно остающиеся за кадром технические детали и повысить эффективность рутинных процессов. Ведь такая плотность экспертных знаний и нетворкинга встречается нечасто.
А современному data-инженеру важно понимать как управлять экспоненциально растущей лавиной данных, не «взрывая» бюджет. Приходится балансировать между скоростью, надёжностью и экономией — компрессировать данные, грамотно распределять их по «тёплому» и «холодному» хранению и оптимизировать ETL-процессы. Конечно, освоить это без стороннего опыта можно, но придётся набить немало шишек и заработать ещё больше седых волос. Поэтому лучше учиться на чужих ошибках и использовать методики и решения, опробованные на больших масштабах.
Для примера — несколько докладов, которые закрывают самые распространенные проблемы современной data-инженерии.

Доклад «Как мы решардим петабайтные кликхаузы в MyTracker: удаляй и властвуй» [3] / Алексей Захожий (VK).
Это история о нестандартном способе масштабирования очень большого ClickHouse-кластера (десятки петабайт). Из опыта знаю, что перебалансировка данных в системах такого объёма — не просто технический вызов, а стратегическая задача. Докладчик поделится неожиданной техникой решардинга через DELETE, готовыми алгоритмами и практическими подходами для масштабирования ClickHouse без остановки сервиса.
Это позволяет закрыть боли [4] с медленными процессами решардинга при работе с большими данными, снизить высокие затраты ресурсов на перенос больших объёмов данных и уменьшить простой сервисов во время миграции данных. А главное, этот опыт можно применять в своих проектах.
И это норма! В программу конференции мы отбирали только доклады с конкретными готовыми к внедрению решениями.
Доклад «Векторный поиск в YDB: опыт выбора и реализации» [5] /
Александр Зевайкин (YDB).
Это даже не история, а настоящая эпопея. Докладчик детально раскроет современный подход к векторному поиску в эпоху AI. Честно расскажет о неудачных попытках применения HNSW и Random projections, а также об использовании готовых решений для RAG-систем. Всё это даёт практические знания по реализации векторных индексов в production-системах от разработчиков YDB. Так что, если вы хотите узнать как работает векторный поиск в YDB и как его реализовать — это возможность получить полезную информацию из первых рук.
Это поможет снизить сложность интеграции AI и векторного поиска в ваши системы. Порешать проблемы с низкой производительностью векторных индексов в распределённых СУБД, фильтрацией и обновлением векторных данных.
Акцент всех докладов идёт на технический уровень. Так легче достичь нужной глубины погружения в детали, обычно недоступные на бизнес-ориентированных конференциях.

Доклад «Data Quality как distributed-система: паттерны отказоустойчивости для данных» [6] / Александр Бергер (Wildberries & Russ).
Докладчик предлагает практический путь перехода от ручного контроля к системной надёжности с помощью современных подходов. Ключевую роль по контролю качества данных в них играют большие языковые модели (LLM) для автогенерации проверок. Это готовые решения ориентированные на enterprise-масштаб включают в себя автоматические алерты, системы карантина данных и интеграцию с ML для детекции аномалий. Паттерны экономят 80% времени на управление качеством данных, что позволяет закрыть самые распространенные «боли»:
ручной контроль качества данных;
реактивный подход к проблемам с данными;
отсутствие автоматизации проверок и алертов.
Это следующий этап эволюции индустрии, который позволяет сокращать человеческий фактор и повышать надёжность систем. Можно много говорить о недостатках искусственного интеллекта [7], но даже самым ярым противникам уже сложно игнорировать факт, что ИИ-инструменты здорово облегчают жизнь.
Доклад «Все еще ходите за метриками в BI? Как мы экспериментировали с LLM и не пRAGадали» [8] / Сергей Волков (Сбер).
Снова готовое решение, только теперь для автоматизации работы с BI-системами через LLM-агенты. Позволяет интегрировать GigaChat с корпоративными мессенджерами для поиска метрик. Решение значительно ускоряет аналитическую работу, ведь решение удачно опробовано на нагрузке в 6 млрд событий в день. Это значительно ускоряет процесс поиска нужных показателей среди тысяч дашбордов и помогает справляться с навигацией внутри крупных корпоративных BI-систем.
При этом важно понимать, что искусственный интеллект пока не решает глобальные проблемы. Это всё ещё ценный опыт, который передаётся из «уст в уста» среди специалистов.

Доклад «Дата Контракты – как создать продукт с нуля, изменив мышление всей компании» [9] / Анна Мавлютова (Т-Банк)
Эта глобальная история, которая отзывается болью у каждого инженера, независимо от опыта и места работы. Стандартизация одновременно наводит ужас и дарит надежду на лучшее. Ведь все мы сталкивались с хаосом в управлении данными между командами или отсутствием стандартизации взаимодействия поставщиков и потребителей данных. Но мало кто по-настоящему знает и понимает, как всё это исправить.
Докладчик предлагает готовую методологию запуска Data Governance продукта от идеи до масштабирования на десятки команд. Это конкретные технические решения (GitOps, policy-as-code) и стратегии преодоления организационного сопротивления. Всё это подкреплено реальными кейсами по изменению корпоративной культуры и ускорения adoption новых процессов в enterprise-среде.
Не обделены вниманием [10] и другие темы. Много докладов посвящено отечественным решениям и Open Source технологиям, потому что это критически важно в текущих реалиях. А опыта импортозамещения и внедрения открытого исходного кода, особенно для масштабных проектов, пока ещё недостаточно.
Все перечисленные решения, методики, подходы и паттерны — лишь часть того, что мы отобрали в программу конференции. Но все они направлены на то, чтобы превратить работу с данными в конкурентное оружие для бизнеса и показать вектор развития для специалистов в области data-инжиниринга. Каждый доклад — не просто теория, а проработанные решения из реального мира, с которыми сталкивались эксперты из топовых IT-компаний. Это настоящие знания внутренней кухни петабайтных систем. И, конечно, нетворкинг, возможность вживую задать вопрос экспертам, рассказать про свой кейс, спросить совета. А чтобы ничего не пропустить и не разрываться между докладами, участники получат записи и материалы. Поэтому, на мой взгляд, Data Internals X 2025 — must-visit конференция для настоящих data-инженеров. Подробная информация на официальном сайте. [1]
Автор: Aleksey999
Источник [11]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/17991
URLs in this post:
[1] Data Internals X 2025: https://datainternals.ru/2025?utm_source=habr&utm_medium=article&utm_campaign=di25&utm_content=932648
[2] опыт: http://www.braintools.ru/article/6952
[3] «Как мы решардим петабайтные кликхаузы в MyTracker: удаляй и властвуй»: https://datainternals.ru/2025/abstracts/15647
[4] боли: http://www.braintools.ru/article/9901
[5] «Векторный поиск в YDB: опыт выбора и реализации»: https://datainternals.ru/2025/abstracts/15916
[6] «Data Quality как distributed-система: паттерны отказоустойчивости для данных»: https://datainternals.ru/2025/abstracts/15872
[7] интеллекта: http://www.braintools.ru/article/7605
[8] «Все еще ходите за метриками в BI? Как мы экспериментировали с LLM и не пRAGадали»: https://datainternals.ru/2025/abstracts/16122
[9] «Дата Контракты – как создать продукт с нуля, изменив мышление всей компании»: https://datainternals.ru/2025/abstracts/16068
[10] вниманием: http://www.braintools.ru/article/7595
[11] Источник: https://habr.com/ru/companies/oleg-bunin/articles/932648/?utm_source=habrahabr&utm_medium=rss&utm_campaign=932648
Нажмите здесь для печати.