职贝云数AI新零售门户

标题: 除了 DeepSeek-OCR,还有谁在“把字当图看”? [打印本页]

作者: A6Qua4jMtW    时间: 昨天 01:14
标题: 除了 DeepSeek-OCR,还有谁在“把字当图看”?
别再狂塞 token 了。长文档/长对话真贵的缘由,是输入方式太臃肿。本文用 3 分钟带你看完 OCR-free / 像素化言语 / token 紧缩,并给出一套最小评测清单。

为什么要看“字当图看”的替代道路

长文档与长对话的成本越来越高,根因不是“模型不够强”,而是输入方式太昂贵:文本留意力几乎按 N² 增长。与其无止境地塞 token,不如换一条思绪——让输入更密、更稳、更一致:把页面当图看(OCR-free)、把言语也回到像素(像素化言语),或直接在视觉/文本两侧做token 紧缩。这三条道路不是“谁替代谁”,而是互补:复杂混排靠 OCR-free 保结构,跨语种靠像素化言语更鲁棒,长上下文直接用紧缩减重,三者还能打组合拳。

(, 下载次数: 0)

DeepSeek OCR

假如你这两天被 DeepSeek-OCR 刷屏,核心记忆大概有两句:第一,把长文本渲成图片;第二,用更少的视觉 token 表示海量信息,于是长上下文的算力账忽然“省钱”了。很多读者会问:这条思绪是不是独一家?其实不止。本文用一篇就够的方式,梳理三条“类同道路”:一条是和 DeepSeek-OCR最像的 OCR-free / 端到端文档了解(整页当图像直接读懂);一条是更“哲学”的 像素化言语建模(把文字也变像素再学);最后一条是工程味很浓的 token 紧缩/合并(少给点 token 也能懂)。看完你大概就能做两件事:给本人的消费链路选型,以及搭一套最小可复理想验,用真实 PDF、表格、公式和多轮对话,测出“谁更省、谁更稳”。

道路一:OCR-free / 端到端读文档(最像 DeepSeek-OCR 的“把整页当图看”)

(, 下载次数: 0)

The pipeline of Donut

Donut 开了头:整页图像输入、直接生成结构化结果,不依赖传统 OCR 引擎,排版/层级自然保留,合适表单、票据、报表。

(, 下载次数: 0)

Examples of visually-situated language understanding tasks, including diagram QA (AI2D), app captioning (Screen2Words), and document QA (DocVQA).

Google 的 Pix2Struct 把网页、UI、图表都当“视觉化言语”,先学“截图→简化结构”的共性,再去做问答与描画;

(, 下载次数: 0)

UReader

UReader 往通用多模态方向走,一套模型兼容文档/网页/场景文字。

(, 下载次数: 0)

GOT-OCR

(, 下载次数: 0)

MinerU framework processing workflow

(, 下载次数: 0)

PaddleOCR-VL

而 Haoran Wei 牵头的 GOT-OCR 2.0、以及开源系统 MinerU(最新到 2.5)和百度的 PaddleOCR-VL,则把复杂版式、表格/公式重建、跨语种等拉满,用在真实业务的可用性更强。这些工作的共同点是:整页进、结构出,最大化保留二维版式与图表语义,少走“先 OCR 再拼”的中间损耗;与 DeepSeek-OCR 的差别是:它们多把“图→文/结构”的链路做到极致,而 DeepSeek-OCR 额外把“文本先视觉化→以视觉 token 进上下文”这件事做成了长上下文紧缩与记忆管理的新范式。(GitHub)

工程实战里,GOT-OCR、MinerU、PaddleOCR-VL把表格/公式重建与多语做得更踏实,合适“读懂+重建+再编辑”的消费链路。什么时分用?当你的 PDF/网页图文混排复杂、表格/图表多时,OCR-free 的结构保持会比“先 OCR 再拼”波动得多。

道路二:像素化言语建模(“言语也该回到像素”)

假如你认同“言语只是更低维的视觉投影”,那这条线会很对胃口。PIXEL 的直觉很简单:把文字渲成图片再学,用像素掩码重建来获得言语表征,这样跨文字体系更鲁棒,也绕开分词器的词表约束;

(, 下载次数: 0)

CLIPPO 走得更远,图片与“渲成图的文字”一致用同一个视觉编码器,做纯像素的跨模态对齐。什么时分用?当你需求多语/异体字/对抗字符波动性时,这条路往往更“抗噪”,也让“言语/视觉”的输入侧更分歧。思想上它们与 DeepSeek-OCR 高度类同:用像素/视觉表征一致言语与图像,让输入侧更分歧、也更抗“分词越狱/编码割裂”。(arXiv)

道路三:token 紧缩/合并(介质不同,但目的分歧:更少 token,近似效果)

(, 下载次数: 0)

ToMe

在视觉侧,ToMe(Token Merging)经过合并相似视觉 token,训练免改即可把 ViT/分散的吞吐拉到 2×,精度只掉零点几个点;专为多模态 LLM 设计的 TokenPacker 则是“粗到细的视觉投影器”,常见能把视觉 token 压到 75–89% 还保持细节与推理力;

(, 下载次数: 0)

Framework of the proposed approach LLMLingua.

在文本侧,LLMLingua / LongLLMLingua 用提示紧缩把 10×–20× 的 token 砍掉还维持功能,且长上下文里更能抗地位偏置。这条线和 DeepSeek-OCR 的关系很清楚:大家都在减少解码器要吃的 token,只不过一个从“视觉端”做(合并/投影),一个从“文本端”做(剪裁/蒸馏),而 DeepSeek-OCR 则把“文本先视觉化再紧缩”归入一致记忆管理。(arXiv)

结论:最理想的是“文-视双轨+自顺应路由”

复杂混排 → 走 OCR-free;跨语种/抗扰动 → 走像素化言语;普通长上下文 → 走 token 紧缩;高价值义务可在视觉侧配合紧缩,既保结构、又控成本。工程上,把三条道路做成一个路由器:检测到“表格/图表/定位”线索就走视觉路由,需求代码/严谨推理就回文本主路,必要时部分回读原文或高分图片,“既便宜又不糊”。

参考

General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model

UReader: Universal OCR-free Visually-situated Language Understanding with Multimodal Large Language Model

Pix2Struct: Screenshot Parsing as Pretraining for Visual Language Understanding

PaddleOCR-VL: Boosting Multilingual Document Parsing via a 0.9B Ultra-Compact Vision-Language Model

MinerU: An Open-Source Solution for Precise Document Content Extraction

DeepSeek-OCR: Contexts Optical Compression

(, 下载次数: 0)

(, 下载次数: 0)

(, 下载次数: 0)

(, 下载次数: 0)

(, 下载次数: 0)

(, 下载次数: 0)

(, 下载次数: 0)






欢迎光临 职贝云数AI新零售门户 (https://www.taojin168.com/cloud/) Powered by Discuz! X3.5