apache.

Простой Python, автоматический Spark: минус Kubernetes, плюс продуктивность

продолжить чтение

Apache Flink для начинающих: архитектура, библиотеки и применение

Apache Flink — это фреймворк и распределенный движок обработки данных, поддерживающий какпакетную (ограниченную), так и потоковую (неограниченную)обработку данных. Это значит, что с его помощью можно обрабатывать как статичные (неизменяемые) данные, так и данные, поступающие в реальном времени.Он работает как в одной, так и в различных кластерных средах, когда задачи распределены между несколькими машинами. Подобным образом работает и MapReduce, который в отличие от Flink ограничен пакетной обработкой данных. Архитектура и основные компоненты Apache FlinkКак мы уже знаем, Apache Flink

продолжить чтение

Почему Apache Spark становится ядром аналитических платформ в России: тренды, особенности и прогнозы для бизнеса

Эксперты компании «Криптонит» проанализировали главные тренды использования Apache Spark в бизнесе, выделили особенности его применения в России и спрогнозировали дальнейшее развитие на основе выявленных тенденций.Растущая востребованность Spark объясняется не только открытым исходным кодом и гибкостью, но и лёгкостью интеграции с современными технологиями — от машинного обучения до облачных платформ.

продолжить чтение

Policy as Code в Apache Kafka: опыт внедрения Open Policy Agent

1 Краткая постановка проблемыНа фоне опыта в развертывании нескольких кластеров Kafka появилось понимание того, что стандартные Access Control List'ы (ACL) неудобны по следующим причинам:сложность в конфигурировании через одну из вспомогательных утилит Kafka (bash‑скрипты, поставляемые в комплекте);необходимость вести реестр разрешений отдельно от ПО‑конфигуратора;

продолжить чтение

Apache Kyuubi + Spark: как приручить большие данные

Привет, Хабр! Меня зовут Станислав Габдулгазиев, и я архитектор департамента поддержки продаж Arenadata. В этом материале поделюсь впечатлениями от использования Kyuubi — инструмента, который значительно упрощает работу пользователей с SQL, а также затрону вопросы его сравнения с другими решениями для обработки больших данных.Небольшая справкаKyuubi — распределённый многопользовательский шлюз для предоставления serverless SQL для хранилищ, озёр данных и lakehouse.

продолжить чтение

Rambler's Top100