职贝云数AI新零售门户

标题: DeepSeek深夜删稿,这篇论文到底说了什么 [打印本页]

作者: QfICegVe 时间: 3 天前
标题: DeepSeek深夜删稿,这篇论文到底说了什么
昨晚，DeepSeek 多模态研讨员陈小康在 X 上发了一条推文，宣布发布 DeepSeek 关于多模态技术的新论文《Thinking with Visual Primitives》。

明天一早，推文删了，GitHub 上的论文也撤了。

但我在它消逝之前，把全文读完了。

读完之后我的判别是：这篇论文被撤，不是由于内容有成绩。恰恰相反——它泄漏的东西，能够太多了。
01 为什么一切大模型都"数不清"手指

前两天我们测 DeepSeek 多模态才能的时分，让它数一张图片里有多少根手指。它思索了一通，本人吐槽"我真的是数晕了"，然后——答错了。

当时以为是灰测阶段的小成绩。

这篇论文告诉我们：这件事背后，藏着一切大模型的集体技术瓶颈。

目前 GPT-5.4、Claude-Sonnet-4.6、Gemini-3-Flash，做图像推理的本质都一样：先把看到的画面转化成文字，然后在文字空间里做思想链推理。

过去两年，OpenAI、Google、Anthropic 的改进方向集中在一个成绩——怎样让模型看得更清楚。高分辨率裁切、动态分块、把图片放大再塞出来。DeepSeek 把这个成绩叫 Perception Gap，感知鸿沟。

但这篇论文指出了另一个更根本的成绩：Reference Gap，援用鸿沟。

模型看清了，但在推理过程中没法准确指向图中的某个东西。

你可以这样了解：一张图里 25 个人密密层层站在一同，你用言语去描画"左边第三排穿蓝色球衣那个人旁边的那个"，描画本身就是模糊的。模型数着数着就丢了上下文，忘了刚才数到谁。

而 DeepSeek 给出的解法，说出来几乎有点可笑地朴素：给 AI 装一根手指。
02 2840亿参数的模型，装上了一根"手指"

DeepSeek 的方案是：让模型在思索过程中直接输入图片上的坐标。

想象一下，模型看到一张图里有很多人，它的思想链不再是"我看到左边有个穿蓝衣服的人"，而是"我看到这个人"然后附上一个框的坐标，把人圈出来。每数一个人就圈一个框，圈完之后数框的数量就行了。

两种坐标格式：

DeepSeek 管这两种东西叫**「视觉原语」**，最小的思想单元。

关键变化在这里：以前模型输入坐标是作为最终答案（「目的在这里」），如今坐标嵌入了思索过程本身。坐标是草稿纸上的标记，不是答卷上的答案。
03 把一张图紧缩7056倍，还能数清楚有几个人

模型底座是 DeepSeek-V4-Flash，一个 2840亿参数的 MoE 模型。MoE 的意思是：模型脑子很大，但每次回答成绩只调用一小部分神经元来干活，推理时只激活 130亿参数。相似于一个百人团队，每个义务只派 5 个人上场。

视觉编码器这边，做了三级紧缩：

你有一张照片要发给冤家，网速很慢。第一步，把照片切成小方格备用；第二步，每 9 个小方格合并成 1 个（3×3 紧缩）；第三步，再在传输时进一步精简掉冗余信息（KV Cache 紧缩 4 倍）。

实践数字：一张 756×756 的图，57 万像素，一路压下去变成 81 个信息单元。紧缩比 7056 倍。

我看到这个数字的第一反应是：这还能看清东西？

但论文里的结果阐明，的确能。不光能看清，还能准确数出图里有 25 个人。

对比一下：异样 800×800 的图

别人用一千多个格子来记住一张图，DeepSeek 用 90 个格子就够了，然后腾出来的算力全拿去"指"。
04 4000万条训练数据怎样来的

DeepSeek 从 Huggingface 等平台把一切带"目的检测"标签的数据集都爬了上去，初筛得到 97,984 个数据源。

然后做了两轮挑选：

第一轮查标签质量。用 AI 自动审核三类成绩：

这轮砍掉 56%，剩 43,141 个。

第二轮查框的质量。三个标准：漏标太多的、框画歪了切掉物体一半的、框大到把整张图都框住的。再砍 27%，剩 31,701 个。

最后按类别采样、去重，产出超过 4000万高质量样本。

为什么先把框的数据做大，点的数据后面再补？

缘由是：让 AI 标一个框，答案基本独一（把物体刚好圈住）；但让 AI 标一个点，物体上哪个地位都算对，没有独一正确答案，训练信号太模糊。而且框本身就包含了两个点（左上角和右下角），学会画框之后标点就是降维操作。
05 强化学习：先分头练，再合并

后训练的策略是**「先分头练，再合并」**。

DeepSeek 先拿框的数据训练一个专门画框的专家模型，再拿点的数据训练一个专门标点的专家模型。分开训练是由于数据量还不够大，两种才能混在一同容易互相关扰。

然后对两个专家分别做强化学习。怎样判别模型"画对了框"或"走对了路"？

DeepSeek 设计了一套多维度的打分系统：

强化学习的数据挑选也有讲究：先让模型做 N 遍同一道题，全做对的题太简单没训练价值，全做错的题太难学不到东西，只留**「有对有错」的题**来练。

最后一步是把两个专家的才能合到一个模型里。详细做法：让一致模型照着两个专家的输入去学，相似于一个先生同时跟两个教师学不同科目。
06 为什么被删？能够泄漏太多了

回到扫尾的成绩：论文为什么被删？

我在 APPSO 的报道里看到这样一种分析：它能够不是由于内容有成绩被撤。恰恰相反，它能够泄漏了太多了。

这篇论文揭示了 DeepSeek 在多模态推理上的核心途径——用"视觉原语"作为认知锚点，把思想链从纯言语空间拓展到图像坐标空间。

这个方向，GPT、Claude、Gemini 都没处理好。

假如这篇论文残缺公开，等于是向全球 AI 圈公开了 DeepSeek 的最新技术道路。

在商业竞争和技术保密的逻辑下，连夜删除，反而阐明了它的价值。

至于这篇论文会不会重新上线、以什么方式上线，DeepSeek 官方目前没有回应。

但有一件事是确定的：当你看到这篇文章的时分，我曾经替你看完了。

你还想看哪个AI产品的深度测评？评论区告诉我。

欢迎光临职贝云数AI新零售门户 (https://www.taojin168.com/cloud/)