DeepSeek представила OCR-модель, которая обрабатывает текст как изображение

Исследователи из DeepSeek показали, как можно полностью переосмыслить процесс распознавания текста. Их новая модель DeepSeek-OCR работает не с текстовыми токенами, как традиционные системы, а с визуальными представлениями страниц. Это меняет сам принцип хранения и анализа информации.

DeepSeek представила OCR-модель, которая обрабатывает текст как изображение - 2

Обычно OCR-модели по символам превращают текст в токены (чем длиннее документ, тем больше вычислений и выше стоимость обработки). DeepSeek предлагает другой путь: превращать текст в изображение, кодировать его через собственный DeepEncoder в компактные визуальные токены, а потом восстанавливать текст обратно. Результат — в разы меньше затрат при почти той же точности.

В экспериментах модель показала впечатляющие результаты. Даже при десятикратном сжатии точность остаётся около 97%, а при двадцатикратном около 60%. Это значит, что система может хранить длинные документы, не теряя смысла, и делать это в десятки раз эффективнее.

Архитектура DeepSeek-OCR устроена по трёхступенчатому принципу:

Локальное внимание ^[1] для захвата мелких деталей
Свёрточное сжатие в 16 раз
Глобальное внимание для анализа структуры страницы

Кроме того, разработчики внедрили механизм забывания ^[2]. Старый контекст можно постепенно снижать в разрешении, чтобы свежая информация оставалась точной, а архивные данные занимали меньше места.

Делегируйте часть рутинных задач вместе с BotHub! ^[3] Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке ^[4] вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источник ^[5]

Автор: cognitronn

Источник ^[6]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/21012

URLs in this post:

[1] внимание: http://www.braintools.ru/article/7595

[2] забывания: http://www.braintools.ru/article/3931

[3] BotHub!: https://bothub.chat/?utm%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C_source=contentmarketing&utm%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C_medium=habr&utm%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C_campaign=news&utm%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C_content=DEEPSEEK%20PRESENTS%20REVOLUTIONARY%20OCR%20MODEL%20THAT%20PROCESSSES%20TEXT%20AS%20AN%20IMAGE

[4] По ссылке: https://bothub.chat/?invitedBy=m_aGCkuyTgqllHCK0dUc7

[5] Источник: https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf

[6] Источник: https://habr.com/ru/companies/bothub/news/959078/?utm_source=habrahabr&utm_medium=rss&utm_campaign=959078

Нажмите здесь для печати.