Parquet.

Как мы строили хранилище на 70 ПБ данных и не планируем останавливаться

Привет, сегодня я расскажу о том, как наша команда строила платформу обработки и хранения данных для обучения GenAI-моделей в Сбере, и как мы выросли до 70 ПБ сырых данных. Меня зовут Александр, я работаю в Сбере и два года занимался развитием этой платформы.Что такое GenAIGenAI — это генеративный искусственный интеллект, который способен создавать новый контент по определённому запросу. Яркими представителями GenAI являются большие языковые модели: нашумевший ChatGPT от OpenAI, китайский DeepSeek, а также российские GigaChat и YandexGPT. Также можно выделить модели для синтеза изображений, например,

продолжить чтение

Оставлено в

Как я автоматизировал деплой аналитической платформы для спортивных данных на базе нестабильного API

Первые сутки сервис падал каждый час, но сейчас система выдерживает пиковые запросы без даунтайма.Исходная задачаМне нужно было автоматизировать процесс сбора спортивных данных (NFL, NBA, UFC) с dingerodds для дальнейшего анализа и обучения моделей. Источник выбран из-за:доступного REST API (пример запроса ниже)свежих коэффициентов и статистикиналичия исторических данныхGET /api/v1/events/upcoming?market=moneyline&sport=baseball Authorization: Bearer <token> Но оказалось, что API отваливается под минимальной нагрузкой и плохо обрабатывает батчи (особенно GET /events/history).Проблемы

продолжить чтение

Оставлено в

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

Parquet.

Как мы строили хранилище на 70 ПБ данных и не планируем останавливаться

Как я автоматизировал деплой аналитической платформы для спортивных данных на базе нестабильного API

Меню навигации

Рекомендуем

На главную

Главное

Рубрики

Методики

Информация

Из архивов

Parquet.

Как мы строили хранилище на 70 ПБ данных и не планируем останавливаться

Как я автоматизировал деплой аналитической платформы для спортивных данных на базе нестабильного API