Основы парсинга сайтов: от HTML до готового датасета для NLP
Вы освоили машинное обучение, знаете, чем transformer отличается от LSTM, но где брать данные для своих проектов? Готовые датасеты — это хорошо, но они общие. А если вам нужны посты из конкретного Telegram‑канала, отзывы с узкопрофильного форума или корпус текстов по редкой теме?Парсинг сайтов — это навык, который превращает интернет в вашу персональную фабрику данных. Без него даже самая умная модель останется без «топлива». В этой статье мы рассмотрим весь путь: от первого запроса к сайту до готового датасета, пригодного для обучения.
Небольшой тест LLM‑модели qwen3‑coder‑next:q8_0
Краткий эксперимент, проведённый в реальном времени.Что это за модель?ПараметрЗначениеНазначениеГенерация и отладка кодаКол‑во параметров~80 млрдКвантованиеQ8 (8‑бит)Размер84 ГБТребования к памяти≈ 84 ГБ VRAM (или эквивалентный объём RAM при работе без GPU)
Парсер, анализ цен и подбор товара с помощью ИИ
Часть 2. Путь от простого поисковика по своей базе до инструмента, с помощью которого можно облегчить себе жизнь при работе с конкурентами/поставщиками, да и в общем отслеживать свою товарную нишу. Меня зовут Евгений. Если вы читали мою первую статью
Топ парсеров и API-сервисов сбора данных: сравнение скорости, масштабируемости и обхода защит — парсеры на максималках
Автоматический сбор данных (парсинг сайтов, или web scraping) стал неотъемлемой практикой для разработчиков, аналитиков и автоматизаторов. С его помощью получают массовую информацию с сайтов – от цен конкурентов и отзывов до контента соцсетей. Для этого разработано множество “парсеров” – библиотек, фреймворков и облачных сервисов, которые позволяют извлекать веб-данные программно. Одни решения требуются для быстрого парсинга статичных страниц, другие – для обхода сложной JavaScript-навигации, третьи – для получения данных через API. В этой статье я рассмотрю топ инструментов для парсинга сайтов

