очистка данных.

Основы парсинга сайтов: от HTML до готового датасета для NLP

Вы освоили машинное обучение, знаете, чем transformer отличается от LSTM, но где брать данные для своих проектов? Готовые датасеты — это хорошо, но они общие. А если вам нужны посты из конкретного Telegram‑канала, отзывы с узкопрофильного форума или корпус текстов по редкой теме?Парсинг сайтов — это навык, который превращает интернет в вашу персональную фабрику данных. Без него даже самая умная модель останется без «топлива». В этой статье мы рассмотрим весь путь: от первого запроса к сайту до готового датасета, пригодного для обучения.

продолжить чтение

Оставлено в

Как подготовить данные к анализу: очистка и предобработка, без которых всё остальное не имеет смысла

Привет, Хабр! Меня зовут Руслан Каллагов, я системный аналитик в Лаборатории Globus — партнёре Нетологии по стажировкам на курсах ИТ-профессий. Уже 4,5 года я работаю в проектировании программного обеспечения и верю в инженерный подход к подготовке данных. Специально для хабровчан собрал практическое руководство по подготовке, очистке и предобработке данных для анализа и машинного обучения. В нём объясняю ключевые этапы подготовки данных, показываю примеры кода, даю чек-листы и алгоритмы действий.

продолжить чтение

Оставлено в

Проверка на Data Poisoning в MLSecOps

В первой обзорной статье на Хабре про MLSecOps мы сформировали общее понимание этого нового направления в IT, узнали про основные навыки, необходимые инженерам и архитекторам MLSecOps для успешной работы, подсветили яркое будущее и перспективы этой профессии.Cсылка на статью: MLSecOps: защита машинного обучения в эпоху киберугроз Давайте сегодня погрузимся в практику и разберем один из наиболее часто задаваемых мне вопросов: «Как защищаться от отравления данных? Как проверять данные на Data Poisoning»?

продолжить чтение

Оставлено в

Основы очистки данных в data science

В реальной жизни данные, к сожалению, не идеальны и требуют тщательной предобработки. Проблемы с данными могут возникать по разным причинам: из-за их природы, способа сбора или ошибок при вводе. Очистка данных позволит сделать анализ более точным, а в случае машинного обучения — улучшить качество моделей.

продолжить чтение

Оставлено в

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

очистка данных.

Основы парсинга сайтов: от HTML до готового датасета для NLP

Как подготовить данные к анализу: очистка и предобработка, без которых всё остальное не имеет смысла

Проверка на Data Poisoning в MLSecOps

Основы очистки данных в data science

Меню навигации

Рекомендуем

На главную

Главное

Рубрики

Методики

Информация

Из архивов

очистка данных.

Основы парсинга сайтов: от HTML до готового датасета для NLP

Как подготовить данные к анализу: очистка и предобработка, без которых всё остальное не имеет смысла

Проверка на Data Poisoning в MLSecOps

Основы очистки данных в data science