ocr.

ocr.

Локальная Gemma 4 на MacBook читает графики и таблицы — и врёт красивее, чем говорит правду

MacBook M3, 16 гигабайт, никакого облака. Свежая Gemma 4 берёт с картинки график и отдаёт CSV. Первые три кейса — идеально. На четвёртом модель начала врать. И врать аккуратнее, чем говорила правду.ВводнаяВышла Gemma 4 12B Unified — мультимодальная модель, которая читает не только текст, но и картинки. В квантованном виде она помещается на обычный ноутбук, и мне стало любопытно, что это даёт на практике, а не в бенчмарках.

продолжить чтение

Как и зачем мы сделали собственный OCR-бенчмарк

Однажды нам понадобилось выбрать OCR-модель для RAG-пайплайна. Казалось бы, задача простая: смотришь на лидерборды, берешь лучшую, PROFIT. Но быстро выяснилось, что, во-первых, то, что прекрасно срабатывает на каких-нибудь английских юридических документах, может не потянуть такие штуки как научные формулы, паспортные данные и таблицы на русском языке. А во-вторых, даже если крутой по всем параметрам бенчмарк для оценки качества распознавания говорит, «всё прочитали правильно, я проверил», точность ответов пользователю, который совершает запрос к чат-боту с RAG под капотом, может страдать.

продолжить чтение

От OCR к смыслу: как мы научили модель понимать, кто кому отец, мать, жених и свидетель

продолжить чтение

Детекция чужого почерка в экзаменационных бланках без эталонного образца

Один ученик писал экзаменационную работу, а кто-то чужой дописал часть за него. Как мы научили нейросеть распознавать это.Дано: государственная аттестация, бумажные бланки, никакого онлайн-контроля. Классический способ фальсификации: ученик начинает работу сам, потом часть дописывает кто-то другой: сосед, нанятый человек, преподаватель. Проверяющий смотрит на текст, но не оценивает почерк.Задача ИИ:

продолжить чтение

Извлечение параметров из 2D-чертежей: 6 YOLO-моделей, кастомный OCR и стрелочная логика

На машиностроительном производстве расчет стоимости детали начинается с чертежа. Входящий запрос выглядит так: PDF и строчка «нужно 50 штук». Чтобы назвать цену, технолог открывает чертеж и вручную снимает параметры: тип детали, габариты, квалитеты, шероховатости, резьбы, материал, массу. Один чертеж — от 5 до 15 минут. При потоке в несколько десятков запросов в день это основная нагрузка на технолога.

продолжить чтение

OneOCR — скрытая OCR внутри Windows 11

OneOCR — это набор из двух динамических библиотек и одной модели ONNX для распознавания текста в приложениях Snipping Tool и Photos в Windows 11.Скажу сразу: статьи писать я не умею, а воды лить не хочу, поэтому писанины будет немного.Итак, набор из трёх файлов состоит из: oneocr.dll, onnxruntime.dll и

продолжить чтение

  • Оставлено в

OCR в кармане: как HunyuanOCR на 1B параметров потеснил гигантов в задачах парсинга документов

Всем привет! Меня зовут Артем, я Data Scientist в компании Raft Digital Solutions. В этой статье расскажу про свой опыт работы с

продолжить чтение

ИИ для работы с документами: как меняются PDF-редакторы и куда все это движется

Привет, Хабр! Меня зовут Алена Ивличева, я менеджер продукта в Content AI. Мы делаем ContentReader PDF — редактор PDF, в который теперь встроен ИИ-ассистент. Сегодня я хочу поговорить о том, куда движутся технологии, как искусственный интеллект меняет наше привычное взаимодействие с документами и что все это значит для наших продуктов.На рынке сейчас огромное количество трендов, но я выделю те, что реально меняют правила игры. 1. PDF-редактор становится частью бизнес-процессаРаньше PDF-редактор был просто утилитой, чтобы открыть документ, посмотреть, поправить, сохранить и закрыть.

продолжить чтение

Smart Engines добавила распознавание цифровых документов с «Госуслуг» в Smart Document Engine 3.4

продолжить чтение

ChatGPT не промахнулся ни в одном из пяти медицинских кейсов. И всё равно проиграл. Разбираем, почему

TL;DRВ эксперимент мы шли с уверенностью, что ChatGPT хотя бы раз из пяти промахнётся с главным диагнозом. Не промахнулся. Пять из пяти: метаболический синдром, субклинический гипотиреоз, перименопауза, MGUS, статин-индуцированный рабдомиолиз. Ставка проиграна, но самое интересное оказалось не здесь.

продолжить чтение