Как мы оценивали OCR на русских документах — и почему все, что «распозналось», можно читать без смеха
Привет, Хабр! Меня зовут Искандер, я - AI-инженер в Лаборатории искусственного интеллекта «Честного знака», и недавно мы всерьёз занялись оцифровкой русскоязычных документов: от простых текстовых файлов до сложных документов с таблицами, списками и изображениями, поступающими из различных систем. Цель — чтобы машина читала их быстро, точно и без творческой интерпретации.

