- BrainTools - https://www.braintools.ru -

Deepseek OCR 2 сокращает количество визуальных токенов на 80%

Deepseek OCR 2 сокращает количество визуальных токенов на 80% - 1

Китайская компания Deepseek, специализирующаяся на искусственном интеллекте [1], представила новый кодировщик изображений, который перестраивает информацию на основе смысла, а не обрабатывает ее в жестком порядке сверху вниз и слева направо.

Традиционные модели визуально-языкового восприятия [2] разбивают изображения на небольшие фрагменты и обрабатывают их в фиксированном порядке, начиная с верхнего левого угла и двигаясь к нижнему правому. По мнению исследователей Deepseek [3] , такой подход не соответствует тому, как люди видят в реальности. Наши глаза следуют гибким шаблонам, основанным на содержании. Например, при обводке спирали мы не перескакиваем по изображению строка за строкой. Вместо этого мы следуем за формой.

Deepseek OCR 2 пытается имитировать этот подход. Новый DeepEncoder V2 сначала обрабатывает визуальные токены на основе их содержимого, перестраивая их в соответствии с контекстом, прежде чем языковая модель интерпретирует то, что находится внутри. Идея заключается в том, что два этапа обработки, работающие последовательно, могут обеспечить подлинное понимание содержимого двухмерных изображений.

Сравнение показывает, как DeepEncoder эволюционировал в DeepEncoder V2, заменив модуль CLIP архитектурой на основе LLM

Сравнение показывает, как DeepEncoder эволюционировал в DeepEncoder V2, заменив модуль CLIP архитектурой на основе LLM

Языковая модель заменяет традиционный кодировщик изображений

В основе DeepEncoder V2 лежит замена типичного компонента CLIP на компактную архитектуру языковой модели, основанную на Alibaba Qwen2 0.5B. Исследователи представили так называемые токены причинно-следственного потока. Это обучаемые токены запросов, которые прикрепляются к визуальным токенам и могут получать доступ ко всей информации об изображении, а также к предыдущим запросам.

Согласно статье, это создает двухэтапный процесс. Сначала кодировщик реорганизует визуальную информацию на основе контента. Затем декодер LLM, работающий с уже отсортированной последовательностью, анализирует ее. В декодер передаются только перегруппированные токены причинно-следственного потока, а не исходные визуальные токены.

Меньше токенов, лучше результаты

В зависимости от изображения, Deepseek OCR 2 использует от 256 до 1120 визуальных токенов. Аналогичным моделям часто требуется более 6000 или 7000 токенов. По данным исследователей, в тесте OmniDocBench v1.5, охватывающем 1355 страниц в девяти категориях, модель показала общий результат 91,09%.

Это на 3,73 процентных пункта лучше, чем у предшественника, Deepseek OCR. Улучшения особенно заметны в распознавании правильного порядка чтения. В анализе документов Deepseek OCR 2 также превзошел Gemini 3 Pro при сопоставимом количестве токенов.

В OmniDocBench v1.5 DeepSeek-OCR 2 показал наивысший результат среди моделей сквозного распознавания текста - 91,09 процента

В OmniDocBench v1.5 DeepSeek-OCR 2 показал наивысший результат среди моделей сквозного распознавания текста – 91,09 процента

На практике также улучшилась частота повторений. Этот показатель измеряет, как часто модель попадает в повторяющиеся текстовые циклы. При использовании в качестве бэкэнда OCR для языковых моделей Deepseek этот показатель снизился с 6,25 до 4,17 процента. При пакетной обработке PDF-файлов в обучающие данные он упал с 3,69 до 2,88 процента.

Однако у модели есть и слабые места. Например, на газетах она показывает худшие результаты, чем её предшественница. Исследователи указывают на два фактора: более низкий лимит токенов может создавать проблемы для газетных страниц с большим количеством текста, а обучающие данные включали всего 250 000 газетных страниц, чего было недостаточно для этой категории.

Шаг к унифицированной мультимодальной обработке

Исследователи рассматривают DeepEncoder V2 как шаг вперед к стандартизированной обработке мультимодальных данных. В будущем архитектура кодировщика может развиваться таким образом, чтобы обрабатывать текст, речь и изображения с использованием одной и той же базовой структуры, адаптируя только токены запроса в зависимости от модальности. Согласно статье, такой подход в конечном итоге может привести к подлинному пониманию двухмерного контента.

Код и веса моделей находятся в открытом доступе на GitHub [4] и Hugging Face [5].

Компания Deepseek выпустила первое поколение системы распознавания текста Deepseek OCR в октябре прошлого года [6] . Эта система обрабатывает текстовые документы как изображения и сокращает требования к памяти [7] в десять раз. В результате языковые модели могут сохранять значительно больше контекста, что полезно для длинных историй чатов или обширных документов. По данным Deepseek, система может обрабатывать до 33 миллионов страниц в день и особенно хорошо подходит для создания больших обучающих наборов данных.


Делегируйте часть рутинных задач вместе с BotHub! [8] Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке [9] вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источник [10]

Автор: MrRjxrby

Источник [11]


Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/25034

URLs in this post:

[1] интеллекте: http://www.braintools.ru/article/7605

[2] восприятия: http://www.braintools.ru/article/7534

[3] исследователей Deepseek: http://github.com/deepseek-ai/DeepSeek-OCR-2

[4] GitHub: https://github.com/deepseek-ai/DeepSeek-OCR-2/

[5] Hugging Face: https://huggingface.co/deepseek-ai/DeepSeek-OCR-2

[6] первое поколение системы распознавания текста Deepseek OCR в октябре прошлого года: https://the-decoder.com/deepseeks-ocr-system-compresses-image-based-text-so-ai-can-handle-much-longer-documents/

[7] памяти: http://www.braintools.ru/article/4140

[8] BotHub!: https://bothub.chat/?utm%5C_source=contentmarketing&utm%5C_medium=habr&utm%5C_campaign=news&utm%5C_content%20=DEEPSEEEK_OCR_2_REDUCES_THE_NUMBER_OF_VISIAL_TOKENS_BY_80%

[9] По ссылке: https://bothub.chat/?invitedBy=m_aGCkuyTgqllHCK0dUc7

[10] Источник: https://the-decoder.com/deepseek-ocr-2-cuts-visual-tokens-by-80-and-outperforms-gemini-3-pro-on-document-parsing/

[11] Источник: https://habr.com/ru/companies/bothub/news/991512/?utm_source=habrahabr&utm_medium=rss&utm_campaign=991512

www.BrainTools.ru

Rambler's Top100