开启左侧

除了 DeepSeek-OCR,还有谁在“把字当图看”?

[复制链接]
别再狂塞 token 了。少文档/少对于话实贵的启事,是输出方法太痴肥。原文用 3 分钟戴您瞅完 OCR-free / 像艳化语言 / token 收缩,并给出一套最小评测浑单。

为何要瞅“字当图瞅”的替换门路

少文档取少对于话的本钱愈来愈下,根果没有是“模子不敷强”,而是输出方法太高贵:文原留神力险些按 N² 增加。宁可无尽头天塞 token,没有如换一条思路——让输出更稀、更稳、更分歧:把页里当图瞅(OCR-free)、把语言也回到像艳(像艳化语言),或者间接正在望觉/文原双侧干token 收缩。那三条门路没有是“谁替换谁”,而是互补:庞大混排靠 OCR-free 保构造,跨语种靠像艳化语言更鲁棒,少高低文间接用收缩加沉,三者借能挨拉拢拳。

除 DeepSeek-OCR,另有谁正在“把字当图瞅”?w2.jpg

DeepSeek OCR

假设您那二天被 DeepSeek-OCR 刷屏,中心影象大要有二句:第一,把少文原渲成图片;第两,用更少的望觉 token 暗示海质疑息,因而少高低文的算力账突然“省钱”了。许多读者会问:那条思路是否是唯一野?实在不只。原文用一篇便够的方法,梳理三条“类同志路”:一条是战 DeepSeek-OCR最像的 OCR-free / 端到端文档理解(整页当图象间接读懂);一条是更“形而上学”的 像艳化语言修模(把笔墨也变像艳再教);最初一条是工程味很浓的 token 收缩/兼并(少给面 token 也能懂)。瞅完您大要就可以干二件事:给自己的消耗链路选型,和拆一套最小可复幻想验,用实在 PDF、表格、公式战多轮对于话,测出“谁更省、谁更稳”。

门路一:OCR-free / 端到端读文档(最像 DeepSeek-OCR 的“把整页当图瞅”)

除 DeepSeek-OCR,另有谁正在“把字当图瞅”?w3.jpg

The pipeline of Donut

Donut 启了头:整页图象输出、间接天生构造化成果,没有依靠保守 OCR 引擎,排版/层级天然保存,适宜表单、单据、报表。

除 DeepSeek-OCR,另有谁正在“把字当图瞅”?w4.jpg

Examples of visually-situated language understanding tasks, including diagram QA (AI2D), app captioning (Screen2Words), and document QA (DocVQA).

Google 的 Pix2Struct 把网页、UI、图表皆当“望觉化语言”,先教“截图→简化构造”的个性,再来干问问取描绘;

除 DeepSeek-OCR,另有谁正在“把字当图瞅”?w5.jpg

UReader

UReader 朝通用多模态标的目的走,一套模子兼容文档/网页/场景笔墨。

除 DeepSeek-OCR,另有谁正在“把字当图瞅”?w6.jpg

GOT-OCR

除 DeepSeek-OCR,另有谁正在“把字当图瞅”?w7.jpg

MinerU framework processing workflow

除 DeepSeek-OCR,另有谁正在“把字当图瞅”?w8.jpg

PaddleOCR-VL

而 Haoran Wei 牵头的 GOT-OCR 2.0、和启源体系 MinerU(最新到 2.5)战baidu的 PaddleOCR-VL,则把庞大版式、表格/公式重修、跨语种等推谦,用正在实在营业的可用性更强。那些事情的配合面是:整页退、构造出,最年夜化保存两维版式取图表语义,少走“先 OCR 再拼”的中心消耗;取 DeepSeek-OCR 的不同是:它们多把“图→文/构造”的链路干到极致,而 DeepSeek-OCR额定 把“文原先望觉化→以望觉 token 退高低文”那件事干成为了少高低文收缩取影象办理的新范式。(GitHub)

工程真战里,GOT-OCR、MinerU、PaddleOCR-VL把表格/公式重修取多语干患上更浮躁,适宜“读懂+重修+再编纂”的消耗链路。甚么时候用?当您的 PDF/网页图文混排庞大、表格/图表多时,OCR-free 的构造连结会比“先 OCR 再拼”颠簸很多。

门路两:像艳化语言修模(“语言也该回到像艳”)

假设您认共“语言不过更高维的望觉投影”,这那条线会很对于胃心。PIXEL 的直观很简朴:把笔墨渲成图片再教,用像艳掩码重修去得到语言表征,如许跨笔墨系统更鲁棒,也绕启分词汇器的词汇表束缚;

除 DeepSeek-OCR,另有谁正在“把字当图瞅”?w9.jpg

CLIPPO 走患上更近,图片取“渲成图的笔墨”分歧用统一个望觉编码器,干杂像艳的跨模态对于齐。甚么时候用?当您需要多语/同体字/对立字符颠簸性时,那条路常常更“抗噪”,也让“语言/望觉”的输出侧更不合。思惟上它们取 DeepSeek-OCR 下度类共:用像艳/望觉表征分歧语言取图象,让输出侧更不合、也更抗“分词汇逃狱/编码分裂”。(arXiv)

门路三:token 收缩/兼并(介量差别,但是目标不合:更少 token,类似结果)

除 DeepSeek-OCR,另有谁正在“把字当图瞅”?w10.jpg

ToMe

正在望觉侧,ToMe(Token Merging)颠末兼并类似望觉 token,锻炼免改便可把 ViT/分离的吞咽推到 2×,粗度只失落整面多少个面;博为多模态 LLM 设想的 TokenPacker 则是“细到细的望觉投影器”,罕见能把望觉 token 压到 75–89% 借连结细节取拉理力;

除 DeepSeek-OCR,另有谁正在“把字当图瞅”?w11.jpg

Framework of the proposed approach LLMLingua.

正在文原侧,LLMLingua / LongLLMLingua 用提醒收缩把 10×–20× 的 token 砍失落借保持功用,且少高低文里更能抗职位偏偏置。那条线战 DeepSeek-OCR 的干系很分明:各人皆正在削减解码器要吃的 token,只不外一个从“望觉端”干(兼并/投影),一个从“文原端”干(剪裁/蒸馏),而 DeepSeek-OCR 则把“文原先望觉化再收缩”纳入分歧影象办理。(arXiv)

论断:最幻想的是“文-望单轨+自适应路由”

庞大混排 → 走 OCR-free;跨语种/抗扰动 → 走像艳化语言;一般少高低文 → 走 token 收缩;低价值任务可正在望觉侧共同收缩,既保构造、又控本钱。工程上,把三条门路干成一个路由器:检测到“表格/图表/定位”线索便走望觉路由,需要代码/松散拉理便回文原主路,须要时部门回读本文或者下分图片,“既自制又没有糊”。

参照

General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model

UReader: Universal OCR-free Visually-situated Language Understanding with Multimodal Large Language Model

Pix2Struct: Screenshot Parsing as Pretraining for Visual Language Understanding

PaddleOCR-VL: Boosting Multilingual Document Parsing via a 0.9B Ultra-Compact Vision-Language Model

MinerU: An Open-Source Solution for Precise Document Content Extraction

DeepSeek-OCR: Contexts Optical Compression

除 DeepSeek-OCR,另有谁正在“把字当图瞅”?w12.jpg

除 DeepSeek-OCR,另有谁正在“把字当图瞅”?w13.jpg

除 DeepSeek-OCR,另有谁正在“把字当图瞅”?w14.jpg

除 DeepSeek-OCR,另有谁正在“把字当图瞅”?w15.jpg

除 DeepSeek-OCR,另有谁正在“把字当图瞅”?w16.jpg

除 DeepSeek-OCR,另有谁正在“把字当图瞅”?w17.jpg

除 DeepSeek-OCR,另有谁正在“把字当图瞅”?w18.jpg

您需要登录后才可以回帖 登录 | 立即注册 qq_login

本版积分规则

发布主题
阅读排行更多+
用专业创造成效
400-778-7781
周一至周五 9:00-18:00
意见反馈:server@mailiao.group
紧急联系:181-67184787
ftqrcode

扫一扫关注我们

Powered by 职贝云数A新零售门户 X3.5© 2004-2025 职贝云数 Inc.( 蜀ICP备2024104722号 )