职贝云数AI新零售门户
标题:
DeepSeek深夜删稿,这篇论文到底说了什么
[打印本页]
作者:
QfICegVe
时间:
3 天前
标题:
DeepSeek深夜删稿,这篇论文到底说了什么
昨晚,DeepSeek 多模态研讨员陈小康在 X 上发了一条推文,宣布发布 DeepSeek 关于多模态技术的新论文《Thinking with Visual Primitives》。
明天一早,推文删了,GitHub 上的论文也撤了。
但我在它消逝之前,把全文读完了。
读完之后我的判别是:这篇论文被撤,不是由于内容有成绩。恰恰相反——它泄漏的东西,能够太多了。
01 为什么一切大模型都"数不清"手指
前两天我们测 DeepSeek 多模态才能的时分,让它数一张图片里有多少根手指。它思索了一通,本人吐槽"我真的是数晕了",然后——答错了。
当时以为是灰测阶段的小成绩。
这篇论文告诉我们:这件事背后,藏着一切大模型的集体技术瓶颈。
目前 GPT-5.4、Claude-Sonnet-4.6、Gemini-3-Flash,做图像推理的本质都一样:先把看到的画面转化成文字,然后在文字空间里做思想链推理。
过去两年,OpenAI、Google、Anthropic 的改进方向集中在一个成绩——怎样让模型看得更清楚。高分辨率裁切、动态分块、把图片放大再塞出来。DeepSeek 把这个成绩叫 Perception Gap,感知鸿沟。
但这篇论文指出了另一个更根本的成绩:Reference Gap,援用鸿沟。
模型看清了,但在推理过程中没法准确指向图中的某个东西。
你可以这样了解:一张图里 25 个人密密层层站在一同,你用言语去描画"左边第三排穿蓝色球衣那个人旁边的那个",描画本身就是模糊的。模型数着数着就丢了上下文,忘了刚才数到谁。
而 DeepSeek 给出的解法,说出来几乎有点可笑地朴素:给 AI 装一根手指。
02 2840亿参数的模型,装上了一根"手指"
DeepSeek 的方案是:让模型在思索过程中直接输入图片上的坐标。
想象一下,模型看到一张图里有很多人,它的思想链不再是"我看到左边有个穿蓝衣服的人",而是"我看到这个人"然后附上一个框的坐标,把人圈出来。每数一个人就圈一个框,圈完之后数框的数量就行了。
两种坐标格式:
框(bounding box):画个矩形把物体圈住,合适标定物体地位点(point):在图上戳一个地位,合适追踪途径和走迷宫
DeepSeek 管这两种东西叫**「视觉原语」**,最小的思想单元。
关键变化在这里:以前模型输入坐标是作为最终答案(「目的在这里」),如今坐标嵌入了思索过程本身。坐标是草稿纸上的标记,不是答卷上的答案。
03 把一张图紧缩7056倍,还能数清楚有几个人
模型底座是 DeepSeek-V4-Flash,一个 2840亿参数的 MoE 模型。MoE 的意思是:模型脑子很大,但每次回答成绩只调用一小部分神经元来干活,推理时只激活 130亿参数。相似于一个百人团队,每个义务只派 5 个人上场。
视觉编码器这边,做了三级紧缩:
你有一张照片要发给冤家,网速很慢。第一步,把照片切成小方格备用;第二步,每 9 个小方格合并成 1 个(3×3 紧缩);第三步,再在传输时进一步精简掉冗余信息(KV Cache 紧缩 4 倍)。
实践数字:一张 756×756 的图,57 万像素,一路压下去变成 81 个信息单元。紧缩比 7056 倍。
我看到这个数字的第一反应是:这还能看清东西?
但论文里的结果阐明,的确能。不光能看清,还能准确数出图里有 25 个人。
对比一下:异样 800×800 的图
Gemini-3-Flash 耗费约 1100 个 tokenClaude-Sonnet-4.6 约 870 个GPT-5.4 约 740 个DeepSeek 只用 90 个信息单元
别人用一千多个格子来记住一张图,DeepSeek 用 90 个格子就够了,然后腾出来的算力全拿去"指"。
04 4000万条训练数据怎样来的
DeepSeek 从 Huggingface 等平台把一切带"目的检测"标签的数据集都爬了上去,初筛得到 97,984 个数据源。
然后做了两轮挑选:
第一轮查标签质量。用 AI 自动审核三类成绩:
标签是有意义的数字编号(类别名叫"0""1"的那种)标签是公家实体("MyRoommate")标签是模糊缩写(工业检测里的"OK""NG",一个苹果"OK"和一个电路板"OK"长得完全不一样)
这轮砍掉 56%,剩 43,141 个。
第二轮查框的质量。三个标准:漏标太多的、框画歪了切掉物体一半的、框大到把整张图都框住的。再砍 27%,剩 31,701 个。
最后按类别采样、去重,产出超过 4000万高质量样本。
为什么先把框的数据做大,点的数据后面再补?
缘由是:让 AI 标一个框,答案基本独一(把物体刚好圈住);但让 AI 标一个点,物体上哪个地位都算对,没有独一正确答案,训练信号太模糊。而且框本身就包含了两个点(左上角和右下角),学会画框之后标点就是降维操作。
05 强化学习:先分头练,再合并
后训练的策略是**「先分头练,再合并」**。
DeepSeek 先拿框的数据训练一个专门画框的专家模型,再拿点的数据训练一个专门标点的专家模型。分开训练是由于数据量还不够大,两种才能混在一同容易互相关扰。
然后对两个专家分别做强化学习。怎样判别模型"画对了框"或"走对了路"?
DeepSeek 设计了一套多维度的打分系统:
格式对不对(坐标语法正确吗)逻辑通不通(思索过程有没有自相矛盾)答案准不准(最终结果和标准答案差多少)
强化学习的数据挑选也有讲究:先让模型做 N 遍同一道题,全做对的题太简单没训练价值,全做错的题太难学不到东西,只留**「有对有错」的题**来练。
最后一步是把两个专家的才能合到一个模型里。详细做法:让一致模型照着两个专家的输入去学,相似于一个先生同时跟两个教师学不同科目。
06 为什么被删?能够泄漏太多了
回到扫尾的成绩:论文为什么被删?
我在 APPSO 的报道里看到这样一种分析:它能够不是由于内容有成绩被撤。恰恰相反,它能够泄漏了太多了。
这篇论文揭示了 DeepSeek 在多模态推理上的核心途径——用"视觉原语"作为认知锚点,把思想链从纯言语空间拓展到图像坐标空间。
这个方向,GPT、Claude、Gemini 都没处理好。
假如这篇论文残缺公开,等于是向全球 AI 圈公开了 DeepSeek 的最新技术道路。
在商业竞争和技术保密的逻辑下,连夜删除,反而阐明了它的价值。
至于这篇论文会不会重新上线、以什么方式上线,DeepSeek 官方目前没有回应。
但有一件事是确定的:当你看到这篇文章的时分,我曾经替你看完了。
你还想看哪个AI产品的深度测评?评论区告诉我。
欢迎光临 职贝云数AI新零售门户 (https://www.taojin168.com/cloud/)
Powered by Discuz! X3.5