Генератор синтетических документов для обучения моделей ИИ
Где взять пару миллионов документов с разметкой для обучения модели ИИ? Сгенерировать синтетически! Меня зовут Никита, я работаю в ИСП РАН и веду блог по ИИ. Выложил в открытый доступ проект, который поможет дата-саентистам самостоятельно создавать датасеты сканированных документов с разметкой, используя только CPU. Подойдет для предобучения мультимодальных трансформеров, OCR и проч.Кратко:Генератор создает синтетические PNG-картинки сканированных документов с разметкой. Ссылка на гитхабЯзык текста: можно выбрать.
Content AI и РозумСофт объединили технологии для точного распознавания документов
10 июня 2025 — многофункциональный инструментарий для разработчиков ContentReader Engine для операционной системы Linux был успешно протестирован и интегрирован с сервисом CORRECT. Компании РозумСофт и Content AI договорились о развитии сотрудничества для усиления позиций на рынке OCRIDP-решений, комбинируя свои технологические преимущества.Что дает интеграция с ContentReader Engine?Специализированный движок ContentReader Engine обеспечивает облачный сервис CORRECT новыми возможностями:· Быстрое и точное распознавание текста, штрихкодов и др.·
Как декомпозиция повышает точность распознавания текста: опыт с фотографиями СТС
Привет! Меня зовут Наталия Вареник, я DS-инженер в Авито, занимаюсь моделями распознавания изображений. Расскажу про один из наших проектов — пайплайн для распознавания номеров с фотографии свидетельства транспортного средства (СТС). В статье описала особенности задачи и рассказала, как мы решали её с помощью декомпозиции. Материал будет полезен начинающим и мидл-DS-инженерам, которые хотят узнать больше про декомпозицию задачи на этапах разметки и построения моделей.
Машинное обучение в страховании: как ИИ и большие данные меняют подходы к оценке рисков и борьбе с мошенничеством
Привет, Хабр!Меня зовут Дмитрий, я дата-сайентист в команде моделирования Росгосстраха. Страховые компании активно обращаются к технологиям машинного обучения (ML) и искусственного интеллекта (ИИ) для формирования тарифов, борьбы с мошенничеством, оптимизации различных процессов и улучшения качества обслуживания клиентов. В этом обзоре я хочу рассказать о том, как ML/ИИ трансформирует процессы в страховом секторе. Посмотрим, как технологии интегрируются в повседневную работу крупной страховой компании на примере нескольких характерных задач. Машинное обучение в страховой отрасли