- BrainTools - https://www.braintools.ru -

Китайская компания Deepseek, специализирующаяся на искусственном интеллекте [1], представила новый кодировщик изображений, который перестраивает информацию на основе смысла, а не обрабатывает ее в жестком порядке сверху вниз и слева направо.
Традиционные модели визуально-языкового восприятия [2] разбивают изображения на небольшие фрагменты и обрабатывают их в фиксированном порядке, начиная с верхнего левого угла и двигаясь к нижнему правому. По мнению исследователей Deepseek [3] , такой подход не соответствует тому, как люди видят в реальности. Наши глаза следуют гибким шаблонам, основанным на содержании. Например, при обводке спирали мы не перескакиваем по изображению строка за строкой. Вместо этого мы следуем за формой.
Deepseek OCR 2 пытается имитировать этот подход. Новый DeepEncoder V2 сначала обрабатывает визуальные токены на основе их содержимого, перестраивая их в соответствии с контекстом, прежде чем языковая модель интерпретирует то, что находится внутри. Идея заключается в том, что два этапа обработки, работающие последовательно, могут обеспечить подлинное понимание содержимого двухмерных изображений.
В основе DeepEncoder V2 лежит замена типичного компонента CLIP на компактную архитектуру языковой модели, основанную на Alibaba Qwen2 0.5B. Исследователи представили так называемые токены причинно-следственного потока. Это обучаемые токены запросов, которые прикрепляются к визуальным токенам и могут получать доступ ко всей информации об изображении, а также к предыдущим запросам.
Согласно статье, это создает двухэтапный процесс. Сначала кодировщик реорганизует визуальную информацию на основе контента. Затем декодер LLM, работающий с уже отсортированной последовательностью, анализирует ее. В декодер передаются только перегруппированные токены причинно-следственного потока, а не исходные визуальные токены.
В зависимости от изображения, Deepseek OCR 2 использует от 256 до 1120 визуальных токенов. Аналогичным моделям часто требуется более 6000 или 7000 токенов. По данным исследователей, в тесте OmniDocBench v1.5, охватывающем 1355 страниц в девяти категориях, модель показала общий результат 91,09%.
Это на 3,73 процентных пункта лучше, чем у предшественника, Deepseek OCR. Улучшения особенно заметны в распознавании правильного порядка чтения. В анализе документов Deepseek OCR 2 также превзошел Gemini 3 Pro при сопоставимом количестве токенов.
На практике также улучшилась частота повторений. Этот показатель измеряет, как часто модель попадает в повторяющиеся текстовые циклы. При использовании в качестве бэкэнда OCR для языковых моделей Deepseek этот показатель снизился с 6,25 до 4,17 процента. При пакетной обработке PDF-файлов в обучающие данные он упал с 3,69 до 2,88 процента.
Однако у модели есть и слабые места. Например, на газетах она показывает худшие результаты, чем её предшественница. Исследователи указывают на два фактора: более низкий лимит токенов может создавать проблемы для газетных страниц с большим количеством текста, а обучающие данные включали всего 250 000 газетных страниц, чего было недостаточно для этой категории.
Исследователи рассматривают DeepEncoder V2 как шаг вперед к стандартизированной обработке мультимодальных данных. В будущем архитектура кодировщика может развиваться таким образом, чтобы обрабатывать текст, речь и изображения с использованием одной и той же базовой структуры, адаптируя только токены запроса в зависимости от модальности. Согласно статье, такой подход в конечном итоге может привести к подлинному пониманию двухмерного контента.
Код и веса моделей находятся в открытом доступе на GitHub [4] и Hugging Face [5].
Компания Deepseek выпустила первое поколение системы распознавания текста Deepseek OCR в октябре прошлого года [6] . Эта система обрабатывает текстовые документы как изображения и сокращает требования к памяти [7] в десять раз. В результате языковые модели могут сохранять значительно больше контекста, что полезно для длинных историй чатов или обширных документов. По данным Deepseek, система может обрабатывать до 33 миллионов страниц в день и особенно хорошо подходит для создания больших обучающих наборов данных.
Делегируйте часть рутинных задач вместе с BotHub! [8] Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке [9] вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!
Источник [10]
Автор: MrRjxrby
Источник [11]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/25034
URLs in this post:
[1] интеллекте: http://www.braintools.ru/article/7605
[2] восприятия: http://www.braintools.ru/article/7534
[3] исследователей Deepseek: http://github.com/deepseek-ai/DeepSeek-OCR-2
[4] GitHub: https://github.com/deepseek-ai/DeepSeek-OCR-2/
[5] Hugging Face: https://huggingface.co/deepseek-ai/DeepSeek-OCR-2
[6] первое поколение системы распознавания текста Deepseek OCR в октябре прошлого года: https://the-decoder.com/deepseeks-ocr-system-compresses-image-based-text-so-ai-can-handle-much-longer-documents/
[7] памяти: http://www.braintools.ru/article/4140
[8] BotHub!: https://bothub.chat/?utm%5C_source=contentmarketing&utm%5C_medium=habr&utm%5C_campaign=news&utm%5C_content%20=DEEPSEEEK_OCR_2_REDUCES_THE_NUMBER_OF_VISIAL_TOKENS_BY_80%
[9] По ссылке: https://bothub.chat/?invitedBy=m_aGCkuyTgqllHCK0dUc7
[10] Источник: https://the-decoder.com/deepseek-ocr-2-cuts-visual-tokens-by-80-and-outperforms-gemini-3-pro-on-document-parsing/
[11] Источник: https://habr.com/ru/companies/bothub/news/991512/?utm_source=habrahabr&utm_medium=rss&utm_campaign=991512
Нажмите здесь для печати.