apache spark.

Выделение одного значащего признака из набора данных с помощью машинного обучения. Используется Apache Spark

Описание задачиВ первой части была создана инфраструктура для запуска машинного обучения. Там же была создана БД с данными для использования в примерах.В данной части будет искаться, какой тип файлов вызывает увеличение нагрузки. При этом, зная, какой именно тип файла был указан как вызывающий нагрузку.Будет использоваться машинное обучение в Apache Spark.Выборка исходных данных из БДНачать работу необходимо с выборки исходных данных для анализа. Структура БД описана в

продолжить чтение

Инфраструктура для изучения основ машинного обучения на локальном компьютере с помощью Apache Spark

СоавторДанная статья создана с помощью @svantonov за что ему отдельная благодарность и признательность за помощь. Без него данный результат был бы не достижим.Описание задачиПрочитав несколько книг по машинному обучению, я решил проверить идеи из книг в тестовых задачах. Тестовые задачи решил создать самостоятельно, опираясь на прошлый опыт.Первой задачей будет следующая. Предположим, откуда-то получаются файлы нескольких типов, например 10 различных типов. Один из получаемых типов будет вызывать увеличение загрузки процессора.

продолжить чтение

Как мы строили хранилище на 70 ПБ данных и не планируем останавливаться

Привет, сегодня я расскажу о том, как наша команда строила платформу обработки и хранения данных для обучения GenAI-моделей в Сбере, и как мы выросли до 70 ПБ сырых данных. Меня зовут Александр, я работаю в Сбере и два года занимался развитием этой платформы.Что такое GenAIGenAI — это генеративный искусственный интеллект, который способен создавать новый контент по определённому запросу. Яркими представителями GenAI являются большие языковые модели: нашумевший ChatGPT от OpenAI, китайский DeepSeek, а также российские GigaChat и YandexGPT. Также можно выделить модели для синтеза изображений, например,

продолжить чтение

Машинное обучение в Apache Spark с помощью MLlib

Apache Spark содержит в себе множество различных библиотек, среди которых есть библиотека MLlib, предназначенная для машинного обучения. В ее состав входят различные алгоритмы машинного обучения и она может использоваться во всех языках программирования, поддерживаемых фреймворком Spark. В этой статье мы покажем вам, как использовать эту библиотеку в своих программах, и дадим некоторые рекомендации по ее применению.

продолжить чтение