Data Internals X 2025: взгляд изнутри на настоящее и будущее data-инженерии. BI.. BI. ClickHouse.. BI. ClickHouse. data.. BI. ClickHouse. data. data base.. BI. ClickHouse. data. data base. data engineer.. BI. ClickHouse. data. data base. data engineer. Data Engineering.. BI. ClickHouse. data. data base. data engineer. Data Engineering. dwh.. BI. ClickHouse. data. data base. data engineer. Data Engineering. dwh. Open source.. BI. ClickHouse. data. data base. data engineer. Data Engineering. dwh. Open source. PostgreSQL.. BI. ClickHouse. data. data base. data engineer. Data Engineering. dwh. Open source. PostgreSQL. validations.. BI. ClickHouse. data. data base. data engineer. Data Engineering. dwh. Open source. PostgreSQL. validations. Блог компании Конференции Олега Бунина (Онтико).. BI. ClickHouse. data. data base. data engineer. Data Engineering. dwh. Open source. PostgreSQL. validations. Блог компании Конференции Олега Бунина (Онтико). Конференции.

Data Internals X 2025: взгляд изнутри на настоящее и будущее data-инженерии

Data Internals X 2025 уже совсем скоро! 23 сентября начнётся профессиональное погружение в инженерию данных, системы хранения и обработки данных. Поэтому мы поговорили с членом программного комитета конференции Алексеем Жиряковым, чтобы узнать, что нас ждёт в этом году. Ведь лучший взгляд — это взгляд изнутри. Так лучше раскрывается опыт создания data-инфраструктуры и многочисленные вызовы одной из самых быстроразвивающихся отраслей IT.

Data Internals X 2025: взгляд изнутри на настоящее и будущее data-инженерии - 1

Меня зовут Алексей Жиряков, я член ПК Data Internals и давно живу в мире больших данных. Но чтобы понять, что в data-инженерии главное — это не просто накопление терабайтов информации, а эффективная обработка и хранение данных — мне понадобилось время. Ведь бюджеты — не резиновые, а экономия помогает бизнесу расти, высвобождая ресурсы на развитие. Остаётся не понаделать ошибок на этом пути или хотя бы свести их к минимуму, руководствуясь опытом экспертов отрасли. Для этого мы и собираем профессиональное сообщество, чтобы делиться секретами внутреннего устройства баз данных на production-масштабах, построением архитектур масштабируемых облачных сервисов, подходами к валидации и обеспечению качества данных.

В первую очередь мы ориентировались на:

  • дата инженеров, чтобы помогать решать даже самые сложные технические задачи;

  • архитекторов данных, чтобы выстраивать паттерны для больших систем;

  • техлидов, чтобы рассматривать возможности и ограничения технологий;

  • разработчиков СУБД, чтобы обсуждать инструменты работы с данными и делиться опытом по их использованию;

  • разработчиков и администраторов баз данных (DBA).

Я участвовал в формировании программы конференции, курировал докладчиков и узнал много интересного и полезного. Уже поделился этим со своей командой: на одном из созвонов мне жутко захотелось сразу же применить полученные знания оптимизации ClickHouse, до того были интересные подробности доклада. Так что уверен, что практический опыт докладчиков и глубина их решений помогут погрузиться в обычно остающиеся за кадром технические детали и повысить эффективность рутинных процессов. Ведь такая  плотность экспертных знаний и нетворкинга встречается нечасто.

А современному data-инженеру важно понимать как управлять экспоненциально растущей лавиной данных, не «взрывая» бюджет. Приходится балансировать между скоростью, надёжностью и экономией — компрессировать данные, грамотно распределять их по «тёплому» и «холодному» хранению и оптимизировать ETL-процессы. Конечно, освоить это без стороннего опыта можно, но придётся набить немало шишек и заработать ещё больше седых волос. Поэтому лучше учиться на чужих ошибках и использовать методики и решения, опробованные на больших масштабах.

Для примера — несколько докладов, которые закрывают самые распространенные проблемы современной data-инженерии.

Data Internals X 2025: взгляд изнутри на настоящее и будущее data-инженерии - 2

Доклад «Как мы решардим петабайтные кликхаузы в MyTracker: удаляй и властвуй» / Алексей Захожий (VK).

Это история о нестандартном способе масштабирования очень большого ClickHouse-кластера (десятки петабайт). Из опыта знаю, что перебалансировка данных в системах такого объёма — не просто технический вызов, а стратегическая задача. Докладчик поделится неожиданной техникой решардинга через DELETE, готовыми алгоритмами и практическими подходами для масштабирования ClickHouse без остановки сервиса.

Это позволяет закрыть боли с медленными процессами решардинга при работе с большими данными, снизить высокие затраты ресурсов на перенос больших объёмов данных и уменьшить простой сервисов во время миграции данных. А главное, этот опыт можно применять в своих проектах.

И это норма! В программу конференции мы отбирали только доклады с конкретными готовыми к внедрению решениями.

Доклад «Векторный поиск в YDB: опыт выбора и реализации»

Александр Зевайкин (YDB).

Это даже не история, а настоящая эпопея. Докладчик детально раскроет современный подход к векторному поиску в эпоху AI. Честно расскажет о неудачных попытках применения HNSW и Random projections, а также об использовании готовых решений для RAG-систем. Всё это даёт практические знания по реализации векторных индексов в production-системах от разработчиков YDB. Так что, если вы хотите узнать как работает векторный поиск в YDB и как его реализовать — это возможность получить полезную информацию из первых рук.

Это поможет снизить сложность интеграции AI и векторного поиска в ваши системы. Порешать проблемы с низкой производительностью векторных индексов в распределённых СУБД, фильтрацией и обновлением векторных данных.

Акцент всех докладов идёт на технический уровень. Так легче достичь нужной глубины погружения в детали, обычно недоступные на бизнес-ориентированных конференциях.

Data Internals X 2025: взгляд изнутри на настоящее и будущее data-инженерии - 3

Доклад «Data Quality как distributed-система: паттерны отказоустойчивости для данных» / Александр Бергер (Wildberries & Russ).

Докладчик предлагает практический путь перехода от ручного контроля к системной надёжности с помощью современных подходов. Ключевую роль по контролю качества данных в них играют большие языковые модели (LLM) для автогенерации проверок. Это готовые решения ориентированные на enterprise-масштаб включают в себя автоматические алерты, системы карантина данных и интеграцию с ML для детекции аномалий. Паттерны экономят 80% времени на управление качеством данных, что позволяет закрыть самые распространенные «боли»:

  • ручной контроль качества данных;

  • реактивный подход к проблемам с данными;

  • отсутствие автоматизации проверок и алертов.

Это следующий этап эволюции индустрии, который позволяет сокращать человеческий фактор и повышать надёжность систем. Можно много говорить о недостатках искусственного интеллекта, но даже самым ярым противникам уже сложно игнорировать факт, что ИИ-инструменты здорово облегчают жизнь.

Доклад «Все еще ходите за метриками в BI? Как мы экспериментировали с LLM и не пRAGадали» / Сергей Волков (Сбер).

Снова готовое решение, только теперь для автоматизации работы с BI-системами через LLM-агенты. Позволяет интегрировать GigaChat с корпоративными мессенджерами для поиска метрик. Решение значительно ускоряет аналитическую работу, ведь решение удачно опробовано на нагрузке в 6 млрд событий в день. Это значительно ускоряет процесс поиска нужных показателей среди тысяч дашбордов и помогает справляться с навигацией внутри крупных корпоративных BI-систем.

При этом важно понимать, что искусственный интеллект пока не решает глобальные проблемы. Это всё ещё ценный опыт, который передаётся из «уст в уста» среди специалистов.

Data Internals X 2025: взгляд изнутри на настоящее и будущее data-инженерии - 4

Доклад «Дата Контракты – как создать продукт с нуля, изменив мышление всей компании» / Анна Мавлютова (Т-Банк)

Эта глобальная история, которая отзывается болью у каждого инженера, независимо от опыта и места работы. Стандартизация одновременно наводит ужас и дарит надежду на лучшее. Ведь все мы сталкивались с хаосом в управлении данными между командами или отсутствием стандартизации взаимодействия поставщиков и потребителей данных. Но мало кто по-настоящему знает и понимает, как всё это исправить.

Докладчик предлагает готовую методологию запуска Data Governance продукта от идеи до масштабирования на десятки команд. Это конкретные технические решения (GitOps, policy-as-code) и стратегии преодоления организационного сопротивления. Всё это подкреплено реальными кейсами по изменению корпоративной культуры и ускорения adoption новых процессов в enterprise-среде.

Не обделены вниманием и другие темы. Много докладов посвящено отечественным решениям и Open Source технологиям, потому что это критически важно в текущих реалиях. А опыта импортозамещения и внедрения открытого исходного кода, особенно для масштабных проектов, пока ещё недостаточно.

Все перечисленные решения, методики, подходы и паттерны — лишь часть того, что мы отобрали в программу конференции. Но все они направлены на то, чтобы превратить работу с данными в конкурентное оружие для бизнеса и показать вектор развития для специалистов в области data-инжиниринга. Каждый доклад — не просто теория, а проработанные решения из реального мира, с которыми сталкивались эксперты из топовых IT-компаний. Это настоящие знания внутренней кухни петабайтных систем. И, конечно, нетворкинг, возможность вживую задать вопрос экспертам, рассказать про свой кейс, спросить совета. А чтобы ничего не пропустить и не разрываться между докладами, участники получат записи и материалы. Поэтому, на мой взгляд, Data Internals X 2025 — must-visit конференция для настоящих data-инженеров. Подробная информация на официальном сайте.

Автор: Aleksey999

Источник

Rambler's Top100