computer vision.

Как я собрал русскоязычного ИИ-рентгенолога: скрещиваем ViT и ruGPT-3 в условиях Kaggle

Привет, Хабр!

продолжить чтение

Как маскировать персональные данные на изображениях: наш эксперимент с OCR и NER

Всем привет! Меня зовут Андрей Иванов, я NLP-исследователь в R&D red_mad_robot. Мы разрабатываем систему Guardrails для защиты персональных данных (PII) и фильтрации небезопасного контента.

продолжить чтение

Как я учил компьютер понимать 122 000 фотографий — и почему сложностью оказались не нейронки, а слова

Как я вообще туда попалЯ крайне редко на фрилансе получал заказы связанные с DS/ML, специалистов для таких задач обычно ищут не там. Причины разные: они требуют долгой интеграции, заказчик сам не понимает задачу, DS более конфиденциален, DS часто возникают внутри продукта, да и в последнее время этот сегмент на фрилансе съедается при помощи LLM: AI integration, RAG боты например. По отдельности эти факторы не страшны, но их совокупность уменьшает количество таких проектов на российском фрилансе почти до 0.Но, внезапно, мне в личку постучались с таким проектом.

продолжить чтение

Аугментации изображений: как улучшить качество моделей без новых данных

Примечание: эта статья — перевод страницы документации библиотеки Albumentations

продолжить чтение

От OCR до ADE: как машины научились не просто читать, а понимать документы

Представьте что вы получили 500 кредитных заявок. В каждой — паспорт, банковская выписка, справка о доходах, налоговая форма. Всё в PDF. Имена файлов: upload1.pdf, upload2.pdf... Чтобы обработать их вручную — нужна неделя и несколько сотрудников. Чтобы обработать автоматически старым способом — нужно написать отдельный парсер под каждый тип документа, и молиться чтобы шрифт не поменялся. Эта статья о том как индустрия шла к решению этой задачи — и к чему пришла.

продолжить чтение

Наш «домашний» НИИ обошёл DINOv2, ViT и десятки ML‑моделей в сегментации видео

Мы открыли и разрабатываем новый способ обработки информации - TAPe (Theory of Active Perception, Теория активного восприятия). Работаем над ней давно, результаты мягко говоря впечатляющие, постепенно начинаем ими делиться. Немного писали о Теории на Хабре здесь. Исторически мы начали именно с обработки видео (когда-нибудь об этом расскажем).

продолжить чтение

Edge AI: почти всё о видеокамерах с искусственным интеллектом. Часть 2

Привет, Хабр! Это вторая часть статьи по мотивам доклада реверс-инженера Дмитрия Ильина для прикладной конференции по Data Sience Ai Conf 2025. Дмитрий рассказал о своём проекте OpenIPC, где IPC — это аббревиатура от IP-камера. Изначально он задумывался как специализированный дистрибутив Linux для IP-камер, но со временем превратился в большое комьюнити любителей опенсорса, каждый из которых является носителем уникального кусочка знаний.

продолжить чтение

Edge AI: почти всё о видеокамерах с искусственным интеллектом. Часть 1

Привет, Хабр! Эта статья написана по мотивам доклада реверс-инженера Дмитрия Ильина для прикладной конференции по Data Sience Ai Conf 2025

продолжить чтение

MADrive: новый метод генерации сенсорных данных для автономного транспорта

Привет, Хабр! Меня зовут Виктор Юрченко, я руковожу командой симуляции сенсоров в автономном транспорте Яндекса. Основная задача, которая стоит перед нашей командой, — искать способы делать симуляции ближе к реальности в части сенсорных данных. И недавно сотрудники команды совместно с исследовательским отделом Яндекса разработали собственный метод для симуляции изображений в проездах — MADrive (Memory-Augmented Driving Scene Modeling).

продолжить чтение

Как мы построили систему видеоаналитики на open source и довели её до продакшена

продолжить чтение

123456...7
Rambler's Top100