распознавание текста.

Детекция чужого почерка в экзаменационных бланках без эталонного образца

Один ученик писал экзаменационную работу, а кто-то чужой дописал часть за него. Как мы научили нейросеть распознавать это.Дано: государственная аттестация, бумажные бланки, никакого онлайн-контроля. Классический способ фальсификации: ученик начинает работу сам, потом часть дописывает кто-то другой: сосед, нанятый человек, преподаватель. Проверяющий смотрит на текст, но не оценивает почерк.Задача ИИ:

продолжить чтение

Оставлено в

Machine Unlearning. Как измерить и достичь «забывания»?

Всем привет! Меня зовут Вадим, я — Data Scientist в компании Raft. Эта статья написана по мотивам моего выступления на конференции AiConf 2025. В ней мы разберём, какими метриками измеряется машинное разучивание и какие основные методы позволяют добиться контролируемого «забывания» без полного переобучения модели. Погрузимся в методы, метрики и бенчмарки, связанные с машинным разучиванием.В первой части

продолжить чтение

Оставлено в

OCR в кармане: как HunyuanOCR на 1B параметров потеснил гигантов в задачах парсинга документов

Всем привет! Меня зовут Артем, я Data Scientist в компании Raft Digital Solutions. В этой статье расскажу про свой опыт работы с

продолжить чтение

Оставлено в

В НИТУ МИСИС ускорили обучение систем распознавания текста с двух месяцев до 72 часов

Учёные НИТУ МИСИС разработали новый способ ускоренной оптимизации систем оптического распознавания текста. Благодаря сочетанию методов машинного обучения и современных генеративных моделей искусственного интеллекта исследователям удалось значительно повысить точность распознавания текста на русском языке и сократить время подготовки таких систем с нескольких недель до 72 часов.

продолжить чтение

Оставлено в

Современные OCR для сложных документов: сравниваем 6 open-source моделей на реальном кошмаре инженера

Привет, Хабр! Каждый, кто хоть раз пытался вытащить данные из скана акта или старого отчета, знает эту боль. Классические OCR-инструменты, вроде старого доброго Apache Tika, отлично справляются с простым печатным текстом, но пасуют перед реальными вызовами: таблицами со сложной вёрсткой, рукописными пометками, мелким курсивом и разными шрифтами в одном документе.Чтобы не быть голословными, давайте посмотрим на типичный «сложный» документ и что с ним делает Tika.

продолжить чтение

Оставлено в

Эффект Даннинга — Крюгера в нейросети. OCR распознавание текста LLM: доверяй, но проверяй

продолжить чтение

Оставлено в

«Манускрипт. Распознать нельзя забыть: как мы научили нейросеть читать рукописи XIX века»

Проект реализуется командой: Константин Кожин — руководитель проекта; Павел Шерстнев — ML-инженер; Антон Михалев — ML-инженер; Анна Пятаева — научный руководитель проекта; Владислава Жуковская — специалист по разметке данных; Алина Нуриманова — специалист по разметке данных. Работа ведётся при поддержке гранта (Фонд содействия инновациям, конкурс «Код-ИИ», VII очередь, декабрь 2024 – декабрь 2025).Manuscript OCR — это open-source проект, опубликованный на GitHub и GitVerse.

продолжить чтение

Оставлено в

«Большие вызовы»: как школьники за 3 недели собрали модуль для офлайн-распознавания документов на Android

продолжить чтение

Оставлено в

Российский ИИ для распознавания доступен на всех отечественных платформах. Завершено портирование на RISC-V

Ученые Smart Engines первыми в России перенесли передовые технологии распознавания штрихкодов, паспортов и других документов на микропроцессоры архитектуры RISC-V. Теперь системы компьютерного зрения доступны на всех без исключения отечественных и основных международных аппаратных платформах: Elbrus, RISC-V, MIPS (КОМДИВ), SPARC, х86, ARM. Это позволяет внедрить распознавание в различных областях – от интернета вещей до ракетостроения – и осуществлять его фактически на любом микроконтроллере, без необходимости в видеокартах и мощных процессорах.

продолжить чтение

Оставлено в

Как мы научили нейросети читать паспорта: история борьбы с бликами, водяными знаками и кривыми фото

Привет, Хабр!

продолжить чтение

Оставлено в

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

распознавание текста.

Детекция чужого почерка в экзаменационных бланках без эталонного образца

Machine Unlearning. Как измерить и достичь «забывания»?

OCR в кармане: как HunyuanOCR на 1B параметров потеснил гигантов в задачах парсинга документов

В НИТУ МИСИС ускорили обучение систем распознавания текста с двух месяцев до 72 часов

Современные OCR для сложных документов: сравниваем 6 open-source моделей на реальном кошмаре инженера

Эффект Даннинга — Крюгера в нейросети. OCR распознавание текста LLM: доверяй, но проверяй

«Манускрипт. Распознать нельзя забыть: как мы научили нейросеть читать рукописи XIX века»

«Большие вызовы»: как школьники за 3 недели собрали модуль для офлайн-распознавания документов на Android

Российский ИИ для распознавания доступен на всех отечественных платформах. Завершено портирование на RISC-V

Как мы научили нейросети читать паспорта: история борьбы с бликами, водяными знаками и кривыми фото

Меню навигации

Рекомендуем

Главное

Рубрики

Методики

Информация

Из архивов

распознавание текста.