DeepSeek представила OCR-модель, которая обрабатывает текст как изображение. ai.. ai. deepseek.. ai. deepseek. ocr.. ai. deepseek. ocr. Блог компании BotHub.. ai. deepseek. ocr. Блог компании BotHub. Будущее здесь.. ai. deepseek. ocr. Блог компании BotHub. Будущее здесь. ИИ.. ai. deepseek. ocr. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект.. ai. deepseek. ocr. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. Машинное обучение.. ai. deepseek. ocr. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. Машинное обучение. машинное+обучение.. ai. deepseek. ocr. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. Машинное обучение. машинное+обучение. научно-популярное.. ai. deepseek. ocr. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. Машинное обучение. машинное+обучение. научно-популярное. нейросети.
DeepSeek представила OCR-модель, которая обрабатывает текст как изображение - 1

Исследователи из DeepSeek показали, как можно полностью переосмыслить процесс распознавания текста. Их новая модель DeepSeek-OCR работает не с текстовыми токенами, как традиционные системы, а с визуальными представлениями страниц. Это меняет сам принцип хранения и анализа информации.

DeepSeek представила OCR-модель, которая обрабатывает текст как изображение - 2

Обычно OCR-модели по символам превращают текст в токены (чем длиннее документ, тем больше вычислений и выше стоимость обработки). DeepSeek предлагает другой путь: превращать текст в изображение, кодировать его через собственный DeepEncoder в компактные визуальные токены, а потом восстанавливать текст обратно. Результат — в разы меньше затрат при почти той же точности.

В экспериментах модель показала впечатляющие результаты. Даже при десятикратном сжатии точность остаётся около 97%, а при двадцатикратном около 60%. Это значит, что система может хранить длинные документы, не теряя смысла, и делать это в десятки раз эффективнее.

Архитектура DeepSeek-OCR устроена по трёхступенчатому принципу:

  1. Локальное внимание для захвата мелких деталей

  2.  Свёрточное сжатие в 16 раз

  3.  Глобальное внимание для анализа структуры страницы

Кроме того, разработчики внедрили механизм забывания. Старый контекст можно постепенно снижать в разрешении, чтобы свежая информация оставалась точной, а архивные данные занимали меньше места.


Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источник

Автор: cognitronn

Источник

Rambler's Top100