ocr.
Генератор синтетических документов для обучения моделей ИИ
Где взять пару миллионов документов с разметкой для обучения модели ИИ? Сгенерировать синтетически! Меня зовут Никита, я работаю в ИСП РАН и веду блог по ИИ. Выложил в открытый доступ проект, который поможет дата-саентистам самостоятельно создавать датасеты сканированных документов с разметкой, используя только CPU. Подойдет для предобучения мультимодальных трансформеров, OCR и проч.Кратко:Генератор создает синтетические PNG-картинки сканированных документов с разметкой. Ссылка на гитхабЯзык текста: можно выбрать.
Что будет, если пригласить на свидание OCR и GPT?
Привет, Хабр! Снова на связи Кирилл Пронин, разработчик PIX RPA из PIX Robotics, со мной Александр Сулейкин, Founder DUC Technologies
Content AI и РозумСофт объединили технологии для точного распознавания документов
10 июня 2025 — многофункциональный инструментарий для разработчиков ContentReader Engine для операционной системы Linux был успешно протестирован и интегрирован с сервисом CORRECT. Компании РозумСофт и Content AI договорились о развитии сотрудничества для усиления позиций на рынке OCRIDP-решений, комбинируя свои технологические преимущества.Что дает интеграция с ContentReader Engine?Специализированный движок ContentReader Engine обеспечивает облачный сервис CORRECT новыми возможностями:· Быстрое и точное распознавание текста, штрихкодов и др.·
Автоматизация без кода: как FastML справляется с документами за несколько кликов
Привет, Хабр!В этом посте хотим рассказать, как технология FastML (о самой разработке уже рассказывали здесь
Как декомпозиция повышает точность распознавания текста: опыт с фотографиями СТС
Привет! Меня зовут Наталия Вареник, я DS-инженер в Авито, занимаюсь моделями распознавания изображений. Расскажу про один из наших проектов — пайплайн для распознавания номеров с фотографии свидетельства транспортного средства (СТС). В статье описала особенности задачи и рассказала, как мы решали её с помощью декомпозиции. Материал будет полезен начинающим и мидл-DS-инженерам, которые хотят узнать больше про декомпозицию задачи на этапах разметки и построения моделей.
Ян Лекун, создатель LeNet, формата DjVu и адвокат опенсорса
Ян Лекун, один из крёстных отцов современного ИИ, в своём твиттере резко критикует корпоративных исследователей ИИ, которые ведут проприетарные разработки и занимаются «нагнетанием страха». Среди этих людей называются Сэм Альтман (OpenAI), Демис Хассабис (Google DeepMind) и Дарио Амодеи (Anthropic) Ян Лекун (Yann LeCun) — французский и американский учёный в области машинного обучения и компьютерного зрения. Известен как автор легендарной системы LeNet (1989 г.), где одним из первых начал применять методы биологических нейронных сетей для оптического распознавания символов (OCR). Сейчас занимает должность вице-президента и ведущего исследователя ИИ в корпорации Meta (руководит разработкой опенсорсной языковой модели LLaMA, в том числе). При этом остаётся ярым приверженцем опенсорса, свободной науки и научно-технического прогресса человечества.
Решалка судоку: сам не представляю, как она у меня получилась
В этой статье мы разберём, как написать программу для решения судоку. Предполагается, что ранее читатель не пробовал алгоритмически решать судоку, тем более — с применением нейронных сетей. Я легко увлекаюсь. Мои пристрастия меняются, но сейчас на первых ролях — многопользовательские партии в Call of Duty: Modern Warfare 3 и судоку. Что касается второй — мне нравится, как она разгружает мне голову и умиротворяет меня. Здесь только вы, числа и достаточно очевидные стратегии, позволяющие выиграть.
Vision Transformer-применение трансформеров в задачах компьютерного зрения
Привет, чемпионы! 🎉 Готов окунуться в мир Vision Transformer (ViT) и узнать, как трансформеры, изначально созданные для обработки текста, завоевали признание в компьютерном зрении? Тогда приступим!Данная работа полезна, если для вас "внимание-это все, что вам нужно" и вас интересует, как стали использовать трансформеры в других областях глубокого обучения.ВведениеСверточные нейронные сети (CNN) долгое время были основой компьютерного зрения, эффективно справляясь с задачами классификации и детекции объектов. Однако у них есть свои ограничения:Локальность обработки
Технологии распознавания паспорта – 10 лет. Хабрология от Smart Engines
Десять лет назад, 17 марта 2015 года, мы опубликовали свой самый первый хабр. Тогда мы впервые представили городу и миру нашу технологию распознавания паспорта на мобильнике. Публика в комментах разделилась на два лагеря: одни сомневались в пользе решения, другие критиковали за недостаток возможностей и предлагали идеи по улучшению.
Машинное обучение в продуктовой разработке, где его не ожидают
Базовые подходы и подводные камни

