computer vision. - страница 3

Как мы автоматизировали модерацию карточек товаров с помощью Computer Vision в Wildberries

Привет! Я Дмитрий Колесников, Team Lead DS-команды «Платформа модерации» в Wildberries & Russ. В этой статье по мотивам моего доклада на HighLoad расскажу, как у нас получилось превратить сотни Computer Vision моделей в единый масштабируемый пайплайн, который ежедневно обрабатывает 15 млн карточек товаров (50+ млн изображений и 500K видео).Что еще будет в статье?Computer Vision‑архитектура системы модерации Wildberries: как мы унифицировали модели через TensorRT и DALI, перешли к шаблонной архитектуре «общий бэкбон - легкие головы» и построили ансамбль в Triton, чтобы снизить нагрузку и ускорить деплой.

продолжить чтение

Как подбирать аугментации: гипотезы, протокол и метрики

Одно и то же изображение под разными аугментациями

продолжить чтение

Как я построил «аниме-завод»: систему, которая сама превращает эпизоды в YouTube Shorts

Привет, Хабр!

продолжить чтение

От вет-ИИ для коров до имперского глянца: хардкорный MLOps на бесплатных GPU

Введение. Контекст как катализаторВ начале 2026 года ленты новостей принесли тревожные сообщения из Сибири: массовые вспышки опасных заболеваний у КРС (крупного рогатого скота) привели к необходимости вынужденного забоя тысяч голов. Для многих фермеров это означало потерю бизнеса и средств к существованию.Мы задались вопросом: может ли доступный Computer Vision стать первой линией обороны? Инструментом, который позволит фермеру в отдаленном районе провести первичный скрининг (триаж) животного с помощью обычного смартфона и вовремя вызвать ветеринара, не дожидаясь начала эпидемии.Так родился проект AI-Vet-Scanner

продолжить чтение

Как я собрал русскоязычного ИИ-рентгенолога: скрещиваем ViT и ruGPT-3 в условиях Kaggle

Привет, Хабр!

продолжить чтение

Как маскировать персональные данные на изображениях: наш эксперимент с OCR и NER

Всем привет! Меня зовут Андрей Иванов, я NLP-исследователь в R&D red_mad_robot. Мы разрабатываем систему Guardrails для защиты персональных данных (PII) и фильтрации небезопасного контента.

продолжить чтение

Как я учил компьютер понимать 122 000 фотографий — и почему сложностью оказались не нейронки, а слова

Как я вообще туда попалЯ крайне редко на фрилансе получал заказы связанные с DS/ML, специалистов для таких задач обычно ищут не там. Причины разные: они требуют долгой интеграции, заказчик сам не понимает задачу, DS более конфиденциален, DS часто возникают внутри продукта, да и в последнее время этот сегмент на фрилансе съедается при помощи LLM: AI integration, RAG боты например. По отдельности эти факторы не страшны, но их совокупность уменьшает количество таких проектов на российском фрилансе почти до 0.Но, внезапно, мне в личку постучались с таким проектом.

продолжить чтение

Аугментации изображений: как улучшить качество моделей без новых данных

Примечание: эта статья — перевод страницы документации библиотеки Albumentations

продолжить чтение

От OCR до ADE: как машины научились не просто читать, а понимать документы

Представьте что вы получили 500 кредитных заявок. В каждой — паспорт, банковская выписка, справка о доходах, налоговая форма. Всё в PDF. Имена файлов: upload1.pdf, upload2.pdf... Чтобы обработать их вручную — нужна неделя и несколько сотрудников. Чтобы обработать автоматически старым способом — нужно написать отдельный парсер под каждый тип документа, и молиться чтобы шрифт не поменялся. Эта статья о том как индустрия шла к решению этой задачи — и к чему пришла.

продолжить чтение

Наш «домашний» НИИ обошёл DINOv2, ViT и десятки ML‑моделей в сегментации видео

Мы открыли и разрабатываем новый способ обработки информации - TAPe (Theory of Active Perception, Теория активного восприятия). Работаем над ней давно, результаты мягко говоря впечатляющие, постепенно начинаем ими делиться. Немного писали о Теории на Хабре здесь. Исторически мы начали именно с обработки видео (когда-нибудь об этом расскажем).

продолжить чтение