парсинг сайтов.

Основы парсинга сайтов: от HTML до готового датасета для NLP

Вы освоили машинное обучение, знаете, чем transformer отличается от LSTM, но где брать данные для своих проектов? Готовые датасеты — это хорошо, но они общие. А если вам нужны посты из конкретного Telegram‑канала, отзывы с узкопрофильного форума или корпус текстов по редкой теме?Парсинг сайтов — это навык, который превращает интернет в вашу персональную фабрику данных. Без него даже самая умная модель останется без «топлива». В этой статье мы рассмотрим весь путь: от первого запроса к сайту до готового датасета, пригодного для обучения.

продолжить чтение

Как обнаружить заказной негатив с помощью скриптов

По данным

продолжить чтение

Небольшой тест LLM‑модели qwen3‑coder‑next:q8_0

Краткий эксперимент, проведённый в реальном времени.Что это за модель?ПараметрЗначениеНазначениеГенерация и отладка кодаКол‑во параметров~80 млрдКвантованиеQ8 (8‑бит)Размер84 ГБТребования к памяти≈ 84 ГБ VRAM (или эквивалентный объём RAM при работе без GPU)

продолжить чтение

Парсер, анализ цен и подбор товара с помощью ИИ

Часть 2. Путь от простого поисковика по своей базе до инструмента, с помощью которого можно облегчить себе жизнь при работе с конкурентами/поставщиками, да и в общем отслеживать свою товарную нишу. Меня зовут Евгений. Если вы читали мою первую статью

продолжить чтение

Топ парсеров и API-сервисов сбора данных: сравнение скорости, масштабируемости и обхода защит — парсеры на максималках

Автоматический сбор данных (парсинг сайтов, или web scraping) стал неотъемлемой практикой для разработчиков, аналитиков и автоматизаторов. С его помощью получают массовую информацию с сайтов – от цен конкурентов и отзывов до контента соцсетей​. Для этого разработано множество “парсеров” – библиотек, фреймворков и облачных сервисов, которые позволяют извлекать веб-данные программно. Одни решения требуются для быстрого парсинга статичных страниц, другие – для обхода сложной JavaScript-навигации, третьи – для получения данных через API. В этой статье я рассмотрю топ инструментов для парсинга сайтов

продолжить чтение