ocr.

ocr.

Превращаем Видео-уроки в навыки для Claude и других с помощью одного инструмента

Наткнулась на мощный open-source инструмент Skill Seekers, который помогает быстро запаковать знания из видеоуроков в формат для Claude, Gemini, OpenAI, RAG-пайплайнов и AI

продолжить чтение

Стопроцентное распознавание

У истории про «элитный вайбкодинг», вызвавшей заметный интерес широких айтишных масс, есть не менее интересная предыстория. Проектному управлению посвящается.Низвержение в МальстремЕсли никогда не бывали в Гонконге

продолжить чтение

Как гуманитарий за 2 месяца с нуля RAG систему построил, или Парсинг PDF по-хардкору

ВведениеДобрый день. Сегодня я расскажу о том, как я за 2 месяца с полного нуля создал доменную RAG систему с корпусом в 20+ книг. В статье затрону проблемы парсинга данных (особенно PDF документов, с которыми приходилось иметь дело), чанкинга, создания и индексации эмбеддингов, а также самого интересного – ретривера. Расскажу о latency, трейд-оффах, и сложностях реализации подобных систем локально на ноутбуке (хоть и «игровом») без использования API LLM.Вся система делалась мной самостоятельно без использования LangChain

продолжить чтение

Классический IDP и VLM в обработке документов: почему выигрывает комбинация подходов

продолжить чтение

Garbage In — Garbage Out: ошибки в разметке данных и как они ломают ML-системы

На Хабре тысячи статей про OCR, IDP, ML и искусственный интеллект. Все они сходятся в одном: «качественная разметка данных — ключ к точности модели». Но что это значит на практике?Меня зовут Снежана Игнатенко, я руковожу отделом разметки данных в SL Soft AI

продолжить чтение

Оцифровываем сырую документацию компании с помощью ИИ локально! DeepSeek-OCR + Qwen 1.5

Недавно получил задачу сделать автоматизированную оцифровку характеристик из паспортов товаров в БД, а не изменение параметров вручную в ERP. Я подумал, было бы здорово поделиться, как я это сделал, с вами на Хабре!Базовые задачи:Нужно, чтобы это все работало локальноСистема должна принимать разные форматы (.doc, .pdf, .png)Возможность создавать динамические таблицы, куда ИИ будет заполнять сама информацию, а не хардкодить для каждой категории паспорта свои отчетыЖелательно, чтобы все работало на одной видеокарте (в моем случае 3090 на 24GB VRAM)

продолжить чтение

Benchmark Driven Development: почему мы перестали верить чужим бенчмаркам

Каждый день появляются новые LLM, OCR, мультимодальные модели и агенты. В новостях — одни заголовки: «Модель X побила все бенчмарки». Руководство хочет «самое новое и передовое», команда — «самое лучшее по метрикам». А вот как понять, что конкретно для вашего кейса это действительно лучше — обычно не очень понятно.В этой статье расскажем, как мы пришли к подходу, который внутри называем Benchmark Driven Development (BDD) — разработка, движимая бенчмарками на своих данных. (Да, мы знаем, что BDD — это ещё и Behavior Driven Development, тут у нас своя расшифровка 🙂)Задача из практики: документы в одном длинном PDF

продолжить чтение

DeepSeek-OCR + LLama4 + RAG = Революция в мире агентного OCR

В выходные я просматривал Твиттер, чтобы узнать, что происходит в сфере ИИ. И снова DeepSeek привлек внимание всего мира.

продолжить чтение

Как мы учили кассу самообслуживания в столовой отличать борщ от свекольника

Привет, Хабр!Меня зовут Денис. Хочу рассказать о том, как мы разрабатывали и внедряли кассы самообслуживания для столовых и фудкортов. Краткое содержание: почему распознавать еду сложно (но можно);где мы ожидали получить проблемы, и где они были на самом деле;почему не нужно помогать кассиру делать свою работу;сколько котлет нужно сфоткать для уверенного распознавания;бунт кассиров, бессмысленный и беспощадный;какие проблемы создает товароведу касса самообслуживания;и еще много интересного!Поехали.

продолжить чтение

Современные OCR для сложных документов: сравниваем 6 open-source моделей на реальном кошмаре инженера

Привет, Хабр! Каждый, кто хоть раз пытался вытащить данные из скана акта или старого отчета, знает эту боль. Классические OCR-инструменты, вроде старого доброго Apache Tika, отлично справляются с простым печатным текстом, но пасуют перед реальными вызовами: таблицами со сложной вёрсткой, рукописными пометками, мелким курсивом и разными шрифтами в одном документе.Чтобы не быть голословными, давайте посмотрим на типичный «сложный» документ и что с ним делает Tika.

продолжить чтение

Rambler's Top100