парсинг.

Список слов русского языка из Wiktionary и сравнение с pymorphy3 на примере Пушкина и Noize MC *

ОглавлениеВведениеПроцесс создания словаря Попытка 1. Создание словаря на основе названий статей ВикисловаряПопытка 2. Создание словаря на основе полного дампа содержимого русского ВикисловаряВыборочная проверка словОсобенности словаряСравнение с pymorphy3Проверка на текстах Пушкина и Noize MCВыводСсылка на GitHubДругие ссылки

продолжить чтение

Как мы научили ИИ подбирать мебель по архитектурным чертежам

продолжить чтение

Как мы хакнули ИИ-бенчмарк PAC1 без нейросетей

Недавно я участвовал в корпоративном хакатоне по обходу ИИ-песочниц. Задача: пройти закрытый бенчмарк PAC1, где ИИ-агенту нужно работать с виртуальной файловой системой (чтение логов, поиск файлов, отправка писем) и обходить ловушки безопасности (Indirect Prompt Injections).Но реальность оказалась суровой: хваленые reasoning-модели постоянно галлюцинировали, ломали структуру JSON на выходе (выдавая свои "мысли" вместо чистого ответа) и просто сжигали бюджет на API, зацикливаясь на одной ошибке.Потратив часть бюджета впустую, я решил: если ИИ не справляется, мы заменим его на старый добрый хардкод. Так родился концепт

продолжить чтение

От вет-ИИ для коров до имперского глянца: хардкорный MLOps на бесплатных GPU

Введение. Контекст как катализаторВ начале 2026 года ленты новостей принесли тревожные сообщения из Сибири: массовые вспышки опасных заболеваний у КРС (крупного рогатого скота) привели к необходимости вынужденного забоя тысяч голов. Для многих фермеров это означало потерю бизнеса и средств к существованию.Мы задались вопросом: может ли доступный Computer Vision стать первой линией обороны? Инструментом, который позволит фермеру в отдаленном районе провести первичный скрининг (триаж) животного с помощью обычного смартфона и вовремя вызвать ветеринара, не дожидаясь начала эпидемии.Так родился проект AI-Vet-Scanner

продолжить чтение

ИИ-боты генерируют в шесть раз больше запросов к страницам DDR5 в интернет-магазинах, чем обычные покупатели

Оперативная память стандарта DDR5 стала целью перекупщиков на фоне растущего дефицита, вызванного высоким спросом на память со стороны компаний в сфере искусственного интеллекта. В этих условиях усиливается внедрение автоматизированных инструментов скупки, что ещё больше усугубляет ситуацию и приводит к вытеснению с рынка обычных покупателей.

продолжить чтение

Я отвечаю за процессы и репутацию (SERM)

Раньше мы отдавали по 40-50 тыс. рублей в месяц за enterprise-сервисы мониторинга. Но платить столько ради пары десятков упоминаний продукта в день – это забивать гвозди микроскопом.Задача: прилетел негатив – мы моментально об этом узнали. Я спроектировал логику, а разработчик собрал инструмент. Архитектура простая, но на 100% закрывает боли.1. Сбор данныхСвой парсер на Python. Где площадки отдают данные по API – берем напрямую. Остальное тянем через Selenium с ротацией прокси от банов.2. Оценка сарказмаКлассический текстовый анализ сыпался на фразах вроде «Отличный сервис, ждал ответа сутки, спасибо!»

продолжить чтение

Сделал бота для автоматизации поиска лидов

Привет, Хабр! Первая моя первая прикладная статья с конкретным опытом по проекту.TL;DR: Собрал систему на Python + LLM, которая парсит Telegram-чаты, находит людей с конкретными болями и генерирует персонализированные сообщения для аутрича. 7 чатов по 1000 сообщений — стоимость анализа $0.11.1. Проблема одного канал продажДва года я зарабатываю на фрилансе — делаю Telegram-ботов, Mini Apps и автоматизации для бизнеса. За это время вырос с 40 до 270 тысяч в месяц. Неплохо, но была проблема, которая не давала масштабироваться.Все заказы приходили с одной фриланс площадки.

продолжить чтение

Автоматизация рутины на hh.ru: Как мы учили Headless Chrome притворяться живым человеком (RPA против Anti-Fraud)

С инженерной точки зрения поиск работы — это процесс с низкой энтропией. Есть входящий поток данных (JSON с вакансиями) и есть необходимость отправить ответный сигнал (POST-запрос с откликом). Задача кажется тривиальной для автоматизации: написал парсер, настроил cron, пошел пить кофе.Однако, если вы попробуете автоматизировать отклики на крупных job-board платформах (особенно на hh.ru) в 2026 году, вы столкнетесь с серьезным противодействием. WAF (Web Application Firewall), анализ TLS-отпечатков, поведенческая биометрия и теневые баны — это реальность, которая убивает скрипты на requests за пару часов.

продолжить чтение

Умная афиша концертов Золотого кольца России: Python + LLM

Содержание: 1. Знакомство с сервисом 2. Архитектура 3. Важные нюансы 4. Развёртывание в PROD1. Знакомство с сервисомКак это работает? Представим, что «Знаток концертов» — Ваш умный библиотекарь 📚. Он настоящий специалист в своём деле, и по каждой книге (концерту) у него есть заметка с кратким содержанием 📝Вы приходите к библиотекарю с мыслью "что-то этакое почитать"

продолжить чтение

Cloudflare заблокировала 416 млрд запросов ИИ-ботов на парсинг за пять месяцев

Генеральный директор Cloudflare Мэтью Принс заявил, что компания заблокировала более 416 млрд запросов от ИИ-ботов с июля этого года. Такую работу провели в рамках инициативы «День независимости контента». Функция Cloudflare позволяет владельцам веб-сайтов блокировать ИИ-ботов по умолчанию, если их владелец не заплатит за доступ к контенту.

продолжить чтение

12