职贝云数AI新零售门户

标题: DeepSeek-OCR:把“文字变成图片”,AI 读文档的方式彻底变了! [打印本页]

作者: 0qCf    时间: 昨天 00:04
标题: DeepSeek-OCR:把“文字变成图片”,AI 读文档的方式彻底变了!
“读文档”这件事,AI 终于学会了像人一样用“眼睛”去了解。

你能够听过OCR(光学字符辨认)技术:它能让计算机看懂图片上的文字,比如扫描合同、辨认发票、读取论文PDF

但最近,DeepSeek 团队发布的全新模型DeepSeek-OCR

让整个行业都炸了——连特斯拉前AI 担任人Karpathy 都亲身点赞。

为什么?

由于它重新定义了AI 读文字的方式。

颠覆式创新:

把文字压成图AI 更聪明地看懂世界

传统的文字处理是这样的:把文字变成一串串token(词元),喂进言语模型。

DeepSeek-OCR 的想法是反着来的:

把海量文字先排版成一张高清图片,再让模型看图识文

这样做的好处非常惊人:

紧缩效率高:它能把 1000 个文本token 紧缩成 100 个视觉token,紧缩比高达10:1

计算成本骤降:输入少了十倍,显存和工夫成本也随之下降。

了解力更强:图像自然保留了规划、表格、图表、字体信息,模型能看懂结构,不只仅是字面意思

精度惊人:10 倍紧缩还能保持 97% 准确率!

最令人震惊的是,在高达10:1 的紧缩比下,DeepSeek-OCR 的辨认准确率依然能保持 97%+!这意味着,AI 不只看得快,还看得准

举个例子:

一篇 1 万字的学术论文,传统模型能够要处理几百万个token,DeepSeek 只需处理几非常之一的量。

原来需求 10 分钟辨认的长文档,如今几秒钟就能搞定。不止辨认文字:还能看懂图表、表格、逻辑结构。

传统OCR 看见图表、表格就犯难,由于它只认,不懂规划

DeepSeek-OCR 不一样,它直接以图像方式了解整个页面:

它能看出表格的行列逻辑;

读懂图表坐标和注释;

甚至能判别段落之间的层级结构。

就像人类阅读一样,不只是辨认单个字,而是了解全体排版和语义。

模拟人类记忆:AI遗忘的迷信

更巧妙的是,DeepSeek-OCR 还模拟了人类记忆的衰减机制。

人脑不会不断记住一切细节,只保留关键信息。DeepSeek-OCR 的视觉紧缩也是如此:它在紧缩文字时自动挑选重要信息,把细节模糊化、重点强化化。

这为将来的大模型长期记忆机制提供了新的思绪:AI 不一定要融会贯通一切上下文,而是要学会像人一样记住重点

一步迈向长期记忆 AI

这种技术的潜力远不止OCR

将来,它可以被用在:

百万字论文分析:让模型一次性读完整本书;

合同与财报审查:疾速扫描关键条款与异常信息;

•  AI 记忆系统:协助大模型建立紧缩式长期记忆,减少遗忘。

换句话说,DeepSeek-OCR 不只是让 AI看得见文字,而是让 AI了解世界的版面

AI 读书的方式,正在变成人类形式

对比项

传统OCR

DeepSeek-OCR

输入方式

逐字辨认

图像了解

紧缩率

1:1

10:1

上下文窗口

受限(几千token

扩展至百万级

了解才能

仅辨认文本

了解图表与排版

计算成本



降低约80%-90%



DeepSeek-OCR 不只让AI 看清文字,更让它读懂世界的版面




#AI技术#OCR辨认#DeepSeek#人工智能运用#科技创新#长文本处理#视觉大模型#AI办公#Karpathy

编辑:陈十九

审核:商密君

征文启事
大家好,为了更好地促进同业间学术交流,商密君现开启征文活动,只需你对商用密码、网络安全、数据加密等有本人的独到见解和想法,都可以积极向商密君投稿,商密君一定将您的声响传递给更多的人。

来源:商密在线注:内容均来源于互联网,版权归作者一切,如有侵权,请联络告知,我们将尽快处理。
(, 下载次数: 0)

(, 下载次数: 0)

(, 下载次数: 0)
点分享
(, 下载次数: 0)
点点赞

点在看




欢迎光临 职贝云数AI新零售门户 (https://www.taojin168.com/cloud/) Powered by Discuz! X3.5