s3.
Как мы строили хранилище на 70 ПБ данных и не планируем останавливаться
Привет, сегодня я расскажу о том, как наша команда строила платформу обработки и хранения данных для обучения GenAI-моделей в Сбере, и как мы выросли до 70 ПБ сырых данных. Меня зовут Александр, я работаю в Сбере и два года занимался развитием этой платформы.Что такое GenAIGenAI — это генеративный искусственный интеллект, который способен создавать новый контент по определённому запросу. Яркими представителями GenAI являются большие языковые модели: нашумевший ChatGPT от OpenAI, китайский DeepSeek, а также российские GigaChat и YandexGPT. Также можно выделить модели для синтеза изображений, например,
Опыт использования S3 Vector с локальной LLM для RAG
ВведениеВ нашей компании AnyMaint, которая занимается разработкой софта для управления техническим обслуживанием и ремонтом (CMMS) промышленного оборудования, одной из главных задач является нормализация имён тулов (инструментов). Под «тулом» мы подразумеваем любой промышленный актив: машины, станки, приборы, оборудование и т.д.Зачем это нужно?
От наскальных рисунков до S3: эволюция хранения данных
Как вы храните данные? Используете файловое хранилище, S3
Apache Kyuubi + Spark: как приручить большие данные
Привет, Хабр! Меня зовут Станислав Габдулгазиев, и я архитектор департамента поддержки продаж Arenadata. В этом материале поделюсь впечатлениями от использования Kyuubi — инструмента, который значительно упрощает работу пользователей с SQL, а также затрону вопросы его сравнения с другими решениями для обработки больших данных.Небольшая справкаKyuubi — распределённый многопользовательский шлюз для предоставления serverless SQL для хранилищ, озёр данных и lakehouse.
Опыт Звука: как реализовать рекомендательную систему аудиокниг с использованием больших языковых моделей (LLM)
Всем привет! На связи Дмитрий Берестнев, Chief Data Scientist в HiFi-стриминге Звук

