Parquet.

Как мы строили хранилище на 70 ПБ данных и не планируем останавливаться

Привет, сегодня я расскажу о том, как наша команда строила платформу обработки и хранения данных для обучения GenAI-моделей в Сбере, и как мы выросли до 70 ПБ сырых данных. Меня зовут Александр, я работаю в Сбере и два года занимался развитием этой платформы.Что такое GenAIGenAI — это генеративный искусственный интеллект, который способен создавать новый контент по определённому запросу. Яркими представителями GenAI являются большие языковые модели: нашумевший ChatGPT от OpenAI, китайский DeepSeek, а также российские GigaChat и YandexGPT. Также можно выделить модели для синтеза изображений, например,

продолжить чтение

Как я автоматизировал деплой аналитической платформы для спортивных данных на базе нестабильного API

Первые сутки сервис падал каждый час, но сейчас система выдерживает пиковые запросы без даунтайма.Исходная задачаМне нужно было автоматизировать процесс сбора спортивных данных (NFL, NBA, UFC) с dingerodds для дальнейшего анализа и обучения моделей. Источник выбран из-за:доступного REST API (пример запроса ниже)свежих коэффициентов и статистикиналичия исторических данныхGET /api/v1/events/upcoming?market=moneyline&sport=baseball Authorization: Bearer <token> Но оказалось, что API отваливается под минимальной нагрузкой и плохо обрабатывает батчи (особенно GET /events/history).Проблемы

продолжить чтение

Rambler's Top100