职贝云数AI新零售门户

标题: 除了 DeepSeek-OCR,还有谁在“把字当图看”? [打印本页]

作者: A6Qua4jMtW 时间: 昨天 01:14
标题: 除了 DeepSeek-OCR,还有谁在“把字当图看”?
别再狂塞 token 了。长文档/长对话真贵的缘由，是输入方式太臃肿。本文用 3 分钟带你看完 OCR-free / 像素化言语 / token 紧缩，并给出一套最小评测清单。

为什么要看“字当图看”的替代道路

长文档与长对话的成本越来越高，根因不是“模型不够强”，而是输入方式太昂贵：文本留意力几乎按 N² 增长。与其无止境地塞 token，不如换一条思绪——让输入更密、更稳、更一致：把页面当图看（OCR-free）、把言语也回到像素（像素化言语），或直接在视觉/文本两侧做token 紧缩。这三条道路不是“谁替代谁”，而是互补：复杂混排靠 OCR-free 保结构，跨语种靠像素化言语更鲁棒，长上下文直接用紧缩减重，三者还能打组合拳。

(, 下载次数: 0)

DeepSeek OCR

假如你这两天被 DeepSeek-OCR 刷屏，核心记忆大概有两句：第一，把长文本渲成图片；第二，用更少的视觉 token 表示海量信息，于是长上下文的算力账忽然“省钱”了。很多读者会问：这条思绪是不是独一家？其实不止。本文用一篇就够的方式，梳理三条“类同道路”：一条是和 DeepSeek-OCR最像的 OCR-free / 端到端文档了解（整页当图像直接读懂）；一条是更“哲学”的像素化言语建模（把文字也变像素再学）；最后一条是工程味很浓的 token 紧缩/合并（少给点 token 也能懂）。看完你大概就能做两件事：给本人的消费链路选型，以及搭一套最小可复理想验，用真实 PDF、表格、公式和多轮对话，测出“谁更省、谁更稳”。

道路一：OCR-free / 端到端读文档（最像 DeepSeek-OCR 的“把整页当图看”）

(, 下载次数: 0)

The pipeline of Donut

Donut 开了头：整页图像输入、直接生成结构化结果，不依赖传统 OCR 引擎，排版/层级自然保留，合适表单、票据、报表。

(, 下载次数: 0)

Examples of visually-situated language understanding tasks, including diagram QA (AI2D), app captioning (Screen2Words), and document QA (DocVQA).

Google 的 Pix2Struct 把网页、UI、图表都当“视觉化言语”，先学“截图→简化结构”的共性，再去做问答与描画；

(, 下载次数: 0)

UReader

UReader 往通用多模态方向走，一套模型兼容文档/网页/场景文字。

(, 下载次数: 0)

GOT-OCR

(, 下载次数: 0)

MinerU framework processing workflow

(, 下载次数: 0)

PaddleOCR-VL

而 Haoran Wei 牵头的 GOT-OCR 2.0、以及开源系统 MinerU（最新到 2.5）和百度的 PaddleOCR-VL，则把复杂版式、表格/公式重建、跨语种等拉满，用在真实业务的可用性更强。这些工作的共同点是：整页进、结构出，最大化保留二维版式与图表语义，少走“先 OCR 再拼”的中间损耗；与 DeepSeek-OCR 的差别是：它们多把“图→文/结构”的链路做到极致，而 DeepSeek-OCR 额外把“文本先视觉化→以视觉 token 进上下文”这件事做成了长上下文紧缩与记忆管理的新范式。(GitHub)

工程实战里，GOT-OCR、MinerU、PaddleOCR-VL把表格/公式重建与多语做得更踏实，合适“读懂+重建+再编辑”的消费链路。什么时分用？当你的 PDF/网页图文混排复杂、表格/图表多时，OCR-free 的结构保持会比“先 OCR 再拼”波动得多。

道路二：像素化言语建模（“言语也该回到像素”）

假如你认同“言语只是更低维的视觉投影”，那这条线会很对胃口。PIXEL 的直觉很简单：把文字渲成图片再学，用像素掩码重建来获得言语表征，这样跨文字体系更鲁棒，也绕开分词器的词表约束；

(, 下载次数: 0)

CLIPPO 走得更远，图片与“渲成图的文字”一致用同一个视觉编码器，做纯像素的跨模态对齐。什么时分用？当你需求多语/异体字/对抗字符波动性时，这条路往往更“抗噪”，也让“言语/视觉”的输入侧更分歧。思想上它们与 DeepSeek-OCR 高度类同：用像素/视觉表征一致言语与图像，让输入侧更分歧、也更抗“分词越狱/编码割裂”。(arXiv)

道路三：token 紧缩/合并（介质不同，但目的分歧：更少 token，近似效果）

(, 下载次数: 0)

ToMe

在视觉侧，ToMe（Token Merging）经过合并相似视觉 token，训练免改即可把 ViT/分散的吞吐拉到 2×，精度只掉零点几个点；专为多模态 LLM 设计的 TokenPacker 则是“粗到细的视觉投影器”，常见能把视觉 token 压到 75–89% 还保持细节与推理力；

(, 下载次数: 0)

Framework of the proposed approach LLMLingua.

在文本侧，LLMLingua / LongLLMLingua 用提示紧缩把 10×–20× 的 token 砍掉还维持功能，且长上下文里更能抗地位偏置。这条线和 DeepSeek-OCR 的关系很清楚：大家都在减少解码器要吃的 token，只不过一个从“视觉端”做（合并/投影），一个从“文本端”做（剪裁/蒸馏），而 DeepSeek-OCR 则把“文本先视觉化再紧缩”归入一致记忆管理。(arXiv)

结论：最理想的是“文-视双轨＋自顺应路由”

复杂混排 → 走 OCR-free；跨语种/抗扰动 → 走像素化言语；普通长上下文 → 走 token 紧缩；高价值义务可在视觉侧配合紧缩，既保结构、又控成本。工程上，把三条道路做成一个路由器：检测到“表格/图表/定位”线索就走视觉路由，需求代码/严谨推理就回文本主路，必要时部分回读原文或高分图片，“既便宜又不糊”。

参考

General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model

UReader: Universal OCR-free Visually-situated Language Understanding with Multimodal Large Language Model

Pix2Struct: Screenshot Parsing as Pretraining for Visual Language Understanding

PaddleOCR-VL: Boosting Multilingual Document Parsing via a 0.9B Ultra-Compact Vision-Language Model

MinerU: An Open-Source Solution for Precise Document Content Extraction

DeepSeek-OCR: Contexts Optical Compression

(, 下载次数: 0)

(, 下载次数: 0)

(, 下载次数: 0)

(, 下载次数: 0)

(, 下载次数: 0)

(, 下载次数: 0)

(, 下载次数: 0)

欢迎光临职贝云数AI新零售门户 (https://www.taojin168.com/cloud/)