ocr.

ocr.

DeepSeek-OCR + LLama4 + RAG = Революция в мире агентного OCR

В выходные я просматривал Твиттер, чтобы узнать, что происходит в сфере ИИ. И снова DeepSeek привлек внимание всего мира.

продолжить чтение

Как мы учили кассу самообслуживания в столовой отличать борщ от свекольника

Привет, Хабр!Меня зовут Денис. Хочу рассказать о том, как мы разрабатывали и внедряли кассы самообслуживания для столовых и фудкортов. Краткое содержание: почему распознавать еду сложно (но можно);где мы ожидали получить проблемы, и где они были на самом деле;почему не нужно помогать кассиру делать свою работу;сколько котлет нужно сфоткать для уверенного распознавания;бунт кассиров, бессмысленный и беспощадный;какие проблемы создает товароведу касса самообслуживания;и еще много интересного!Поехали.

продолжить чтение

Современные OCR для сложных документов: сравниваем 6 open-source моделей на реальном кошмаре инженера

Привет, Хабр! Каждый, кто хоть раз пытался вытащить данные из скана акта или старого отчета, знает эту боль. Классические OCR-инструменты, вроде старого доброго Apache Tika, отлично справляются с простым печатным текстом, но пасуют перед реальными вызовами: таблицами со сложной вёрсткой, рукописными пометками, мелким курсивом и разными шрифтами в одном документе.Чтобы не быть голословными, давайте посмотрим на типичный «сложный» документ и что с ним делает Tika.

продолжить чтение

Как мы ускорили работу с исполнительной документацией с помощью ИИ

Привет, Хабр! Меня зовут Всеволод Зайковский, я заместитель руководителя проекта в «Газпром ЦПС».Есть рутинные задачи, которые отнимают много времени и трудовых ресурсов. В проектах, с которыми работала компания, такой задачей была каталогизация исполнительной документации. Кто не знает, что это такое, тому очень в жизни повезло

продолжить чтение

Эффект Даннинга — Крюгера в нейросети. OCR распознавание текста LLM: доверяй, но проверяй

продолжить чтение

«Манускрипт. Распознать нельзя забыть: как мы научили нейросеть читать рукописи XIX века»

Проект реализуется командой: Константин Кожин — руководитель проекта; Павел Шерстнев — ML-инженер; Антон Михалев — ML-инженер; Анна Пятаева — научный руководитель проекта; Владислава Жуковская — специалист по разметке данных; Алина Нуриманова — специалист по разметке данных. Работа ведётся при поддержке гранта (Фонд содействия инновациям, конкурс «Код-ИИ», VII очередь, декабрь 2024 – декабрь 2025).Manuscript OCR — это open-source проект, опубликованный на GitHub и GitVerse.

продолжить чтение

DeepSeek представила OCR-модель, которая обрабатывает текст как изображение

продолжить чтение

VLM vs IDP (хайп vs конвейер): кто выигрывает в гонке за точностью и эффективностью

продолжить чтение

Как мы научили нейросеть читать технические схемы и сразу считать их стоимость

Танцы с YOLO, OCR и пятнами от кофеКогда думаешь о «цифровой трансформации» в промышленности, в голове обычно всплывают роботы, датчики, большие экраны и дроны, которые сами разносят детали по цеху. В реальности всё часто упирается в куда более прозаичные вещи.

продолжить чтение

End-to-end вместо трёх костылей: как мы обошли OCR и выиграли по скорости и точности

Привет, чемпионы!

продолжить чтение

123
Rambler's Top100