ocr.

ocr.

Как гибрид IDP и VLM экономит миллионы на верификации данных

Последние 2 года мы в Content AI активно тестируем Vision Language Models (VLM) для обработки документов. Модели вроде Qwen2.5-VL или Gemini 2.5 отлично работают с простыми формами — чеками, типовыми договорами. Но на документах со сложными фонами, многоуровневыми таблицами или нестандартной версткой VLM часто галлюцинирует, теряет строки и путается в реквизитах.В одной из предыдущих статей мы пришли к выводу, что будущее за комбинированным подходом, когда VLM усиливает IDP-решения.

продолжить чтение

Как мы внедрили ИИ для обработки рекламаций на производстве

Где бы вы ни работали и каким идеальным продуктом или сервисом вы бы ни занимались, вас всегда будут сопровождать жалобы и рекламации от клиентов.Рекламации — это вежливо-агрессивная форма общения между заказчиком и поставщиком, где каждая сторона добивается максимально приемлемого для себя результата. Потребитель, в идеале, хочет замену товара без дополнительных затрат, а производитель — соблюсти баланс между полным отзывом по гарантийному случаю , или вежливым ответом: «ваше обращение очень важно для нас, но помочь ничем не можем — вот вам промокод в размере 2% на последующие покупки».

продолжить чтение

Как маскировать персональные данные на изображениях: наш эксперимент с OCR и NER

Всем привет! Меня зовут Андрей Иванов, я NLP-исследователь в R&D red_mad_robot. Мы разрабатываем систему Guardrails для защиты персональных данных (PII) и фильтрации небезопасного контента.

продолжить чтение

От OCR до ADE: как машины научились не просто читать, а понимать документы

Представьте что вы получили 500 кредитных заявок. В каждой — паспорт, банковская выписка, справка о доходах, налоговая форма. Всё в PDF. Имена файлов: upload1.pdf, upload2.pdf... Чтобы обработать их вручную — нужна неделя и несколько сотрудников. Чтобы обработать автоматически старым способом — нужно написать отдельный парсер под каждый тип документа, и молиться чтобы шрифт не поменялся. Эта статья о том как индустрия шла к решению этой задачи — и к чему пришла.

продолжить чтение

Превращаем Видео-уроки в навыки для Claude и других с помощью одного инструмента

Наткнулась на мощный open-source инструмент Skill Seekers, который помогает быстро запаковать знания из видеоуроков в формат для Claude, Gemini, OpenAI, RAG-пайплайнов и AI

продолжить чтение

Стопроцентное распознавание

У истории про «элитный вайбкодинг», вызвавшей заметный интерес широких айтишных масс, есть не менее интересная предыстория. Проектному управлению посвящается.Низвержение в МальстремЕсли никогда не бывали в Гонконге

продолжить чтение

Как гуманитарий за 2 месяца с нуля RAG систему построил, или Парсинг PDF по-хардкору

ВведениеДобрый день. Сегодня я расскажу о том, как я за 2 месяца с полного нуля создал доменную RAG систему с корпусом в 20+ книг. В статье затрону проблемы парсинга данных (особенно PDF документов, с которыми приходилось иметь дело), чанкинга, создания и индексации эмбеддингов, а также самого интересного – ретривера. Расскажу о latency, трейд-оффах, и сложностях реализации подобных систем локально на ноутбуке (хоть и «игровом») без использования API LLM.Вся система делалась мной самостоятельно без использования LangChain

продолжить чтение

Классический IDP и VLM в обработке документов: почему выигрывает комбинация подходов

продолжить чтение

Garbage In — Garbage Out: ошибки в разметке данных и как они ломают ML-системы

На Хабре тысячи статей про OCR, IDP, ML и искусственный интеллект. Все они сходятся в одном: «качественная разметка данных — ключ к точности модели». Но что это значит на практике?Меня зовут Снежана Игнатенко, я руковожу отделом разметки данных в SL Soft AI

продолжить чтение

Оцифровываем сырую документацию компании с помощью ИИ локально! DeepSeek-OCR + Qwen 1.5

Недавно получил задачу сделать автоматизированную оцифровку характеристик из паспортов товаров в БД, а не изменение параметров вручную в ERP. Я подумал, было бы здорово поделиться, как я это сделал, с вами на Хабре!Базовые задачи:Нужно, чтобы это все работало локальноСистема должна принимать разные форматы (.doc, .pdf, .png)Возможность создавать динамические таблицы, куда ИИ будет заполнять сама информацию, а не хардкодить для каждой категории паспорта свои отчетыЖелательно, чтобы все работало на одной видеокарте (в моем случае 3090 на 24GB VRAM)

продолжить чтение