职贝云数AI新零售门户

标题: DeepSeek还有多少个“郭达雅”?扒完27篇论文,我们发现了一群“多边形战士”|甲子光年 [打印本页]

作者: IMeYQk 时间: 前天 00:40
标题: DeepSeek还有多少个“郭达雅”?扒完27篇论文,我们发现了一群“多边形战士”|甲子光年
(, 下载次数: 0)

79位跨方向骨干、87%的初代留存率，和一套让年轻人围绕成绩自在组队的机制。

作者｜周悦

编辑｜王博

过去一年，围绕DeepSeek的人才活动音讯不断没有停。从早期罗福莉离任，到初代大模型作者王炳宣、多模态骨干阮翀、R1核心作者郭达雅，相继跳槽。

核心作者接连被挖，DeepSeek的技术壁垒会不会松动？

我们决议换一种方式来看这个成绩。

我们用Codex和Python，梳理了DeepSeek近两年发布的27篇核心论文和技术报告，逐篇拆解署名作者。对DeepSeek V2、V3、V3.2、V4这类可拆分角色的大型技术报告，只保留Research & Engineering名单；其他论文运用原始署名名单。最终，得到一份包含328人的研发作者池。

「甲子光年」发现，DeepSeek的研发团队和外部架构有以下特点：

(, 下载次数: 0)

DeepSeek核心论文共著关系网络，图中每个节点代表一位研讨作者，连线代表共同署名关系，「甲子光年」制图

扒完DeepSeek的27篇论文后，「甲子光年」以为，DeepSeek的思绪可以概括为：不堆卡，不打榜；先验证，再集成；死磕系统效率，打破算力限制。值得一提的是，这27篇论文里几乎没有围绕benchmark刷分的工作，全都在处理详细的工程瓶颈。

1.被挖走的那几位，到底排第几？

(, 下载次数: 0)

DeepSeek的27篇论文，次要覆盖7个技术方向：基座模型、系统/效率、数学/证明、多模态、代码、OCR、推理/强化学习。

我们调查两个维度：参与论文的数量，以及覆盖技术方向的广度。需求阐明的是，这两个目的都来自论文署名统计，不代表贡献大小或组织层级。我们把同时覆盖3个及以上技术方向的研发作者，称为“多边形战士”。

这个数字是多少？79人。

再看那些传闻中被重金争抢的名字，在网络里排在哪。

阮翀的确是Top 1——覆盖18篇论文、6个方向，从MoE架构到数学证明到多模态，几乎无处不在。

他本硕均毕业于北京大学，早年从事NLP研发，2023年加入DeepSeek，参与了DeepSeek-VL、V3和R1等工作，是VL2的通讯作者，往年1月，他加入元戎启行并担任首席迷信家。

郭达雅参与11篇论文，覆盖4个方向，在高频研发作者中并列第12位。王炳宣参与10篇论文，覆盖5个方向，并列第17位。

他们的确是核心人员，分开当然是损失。但关键成绩是：DeepSeek还有多少个“郭达雅”“王炳宣”？

像他们这样参与10篇以上论文的研发作者有24位。即便分开了三位，后面还有21位参与强度相当的人。

假如把DeepSeek看成一支球队，虽然被挖走的是几位核心球员。但这支球队的人才密度，比想象中更厚。

(, 下载次数: 0)

Top25高频研发作者，统计口径为研发作者池，参与论文数和方向数不代表贡献排序，「甲子光年」制图

更值得关注的是“跨界”这件事。328位研发作者中，只在1个方向出现过的有158人。剩下170人，至少跨过两个方向。其中，横跨3个及以上方向的，有79人。

举个最极端的例子，李宇琨参与14篇论文，横跨全部7个方向，从初代DeepSeek LLM一路到最新V4，谷歌学术援用量超过两万。他是DeepSeek的“首位员工”，2023年从字节跳动搜索团队离任后加入，担任预训练数据的相关工作。

这印证了一个常被外界忽略的理想，在AI行业，人才不断是多向活动的，DeepSeek也在从别处挖人。

(, 下载次数: 0)

DeepSeek研发作者覆盖技术方向数分布，覆盖方向数按7个技术方向计算，「甲子光年」制图

2.多边形战士怎样长出来？

外界总在讨论DeepSeek还有没有天赋。

每个AI公司都有明星。DeepSeek不同的地方，是能让一批很年轻的人，迅速在多个技术方向之间组队、探求、获得资源，较少遭到约束和限制。

辛华剑在DeepSeek实习时期，主导开发了专注于数学证明DeepSeek-Prover系列模型，他也是DeepSeek-Prover-V1.5论文的一作。他曾告诉「甲子光年」，Prover在外部最后只是一个独立探求项目，初衷是验证能否经过方式化系统构造出更严厉的推理数据。

大多数大厂会先设部门、定KPI、分预算，再启动项目。DeepSeek的顺序是反过来的：先有人觉得一个成绩值得做，再围绕这个成绩找人和资源。

在论文合作网络里，这种“组队”方式留下的痕迹很清楚。按署名关系聚类，能看到4个相对集中的小组：基模大兵团、系统效率、数学与推理、多模态，以及3个更小的协作簇。需求阐明的是，这些“组”不对应DeepSeek真实部门，只反映谁更常和谁合作。

(, 下载次数: 0)

DeepSeek研发作者合作网络分布，合作小组按波动共著关系辨认，「甲子光年」制图

风趣的是，这个结构和梁文锋描画的组织方式高度吻合。

梁文锋说过：“我们普通不前置分工，而是自然分工。每个人有本人独特的成长阅历，都是自带想法的，不需求push他。当一个idea显示出潜力，我们也会自上而下地去调配资源。”

正点LatePost报道过，DeepSeek的组织层级很薄，研讨团队大体只要梁文锋和研讨员两个层级。“有时末尾一个新方向，就是由于有三五个人都觉得一个idea不错，然后就一同做了。”梁文锋更接近一个导师：组织研发、协调资源，在共同成果上署名为通讯作者。

这套组织方式还有一个在AI行业里极为稀有的特征：不加班。素日多数成员6到7点分开公司，不打卡，没有明白绩效考核。梁文锋的逻辑是：“一个人每天能高质量工作的工夫很难超过6到8小时。加班疲劳下的昏庸判别反而会糜费宝贵的算力资源，得不偿失。”

「甲子光年」梳理发现，DeepSeek论文作者中，多为2023年前后毕业的清华、北大、中科大等高校本硕博生。排名前25的高频研发作者里，近4成毕业于北大。

但这不应该被了解成简单的“名校人海战术”。「甲子光年」了解到，不少AI lab的招聘取向都在变化，在校博士比大厂老兵更受喜爱。

一位AI公司董事长曾告诉「甲子光年」，自从ChatGPT出来后，他末尾挤出午饭的工夫，面试有潜力的在读博士生，再小的项目都会问上至少1小时，从基础公式推导到工程细节把控，筛出真正的创新者。他提到，大多数人都是在2023年才末尾转向GPT相关的架构研讨，相当于站在同一个起跑线上。“这一工夫点后毕业的博士，还未被行业惯性约束，常带来意想不到的打破。”

梁文锋本人也说过：做出DeepSeek V2的，“都是一些Top高校的应届毕业生、没毕业的博四博五实习生，还有一些毕业才几年的年轻人。”

那DeepSeek团队波动性如何？我们交叉比对从论文署名：初代模型论文（2024年1月）的86位作者中，到V4（2026年4月）依然出如今署名里的有75人。两年半过去，初代团队近九成仍在。

V4的Research & Engineering名单，269名研发工程作者中，论文标注已离任者为10人，占比约3.7%。而据Z Finance报道，截至往年4月，过去一年，约有60—70名字节Seed成员流向各大模型公司。

这些数字不等同于DeepSeek真实流失率，但阐明核心研发网络并没有由于几位明星出走而散架。

3.两年27篇论文，死磕系统效率

只看外界声量，V3、V4这些基座模型报告最有目共睹。

但论文主题分布给出的结果有点反直觉：27篇中数量最多的，不是基座模型，而是系统/效率类论文（7篇），超过基座模型（5篇）和数学（5篇）。

这7篇分别是：DeepSeekMoE、ESFT、NSA、Insights into V3、mHC、Conditional Memory和DualPath。没有一篇是在刷benchmark，全都在处理同一类成绩：怎样用更少的算力做更多的事。

(, 下载次数: 0)

DeepSeek近两年27篇论文工夫线，横轴表示每篇论文或技术报告的去重作者数，颜色表示技术方向，「甲子光年」制图

逐一拆解这些论文，会看到三类底层成绩：

第一类，怎样更好应用算力。ESFT关注的是如何更经济地完成模型微调，Insights into V3则复盘如何在大规模集群训练中提高硬件应用率和波动性。

第二类，处理长上下文时降低缓存成本。当模型需求处理更长文本，或者执行复杂Agent义务时，留意力计算和KV Cache（模型保存历史上下文的中间记忆）会迅速变贵。NSA、Conditional Memory和DualPath都在试图紧缩模型“记住历史”的成本。

第三类，模型变大之后怎样训练得稳。DeepSeekMoE探求的是参数规模变大时，只激活更少的专家网络；mHC则试图加强深层网络中的信号传播，降低超大规模模型训练时的不波动性。

梁文锋曾抛出过一个假设：“能不能用现存的一部分算力，就完成如今一切的智能？”这7篇系统相关论文，可以看作DeepSeek团队不断在回答这个成绩。

还有一个细节值得留意，27篇论文的作者规模，呈现“大小搭配”的节拍。基座模型报告动辄200到300人的全员参与，系统、数学、多模态方向的论文通常只要6到20人。

前者像大兵团作战，后者像特种小队的单点打破，先用小团队低成本验证，跑通了再集成进下一代旗舰。

4.从R1到V4，攒出底牌

假如把DeepSeek的研发看成一场长跑，V4不是忽然出现的迸发，更像是几条技术道路在两年后集中收束。

(, 下载次数: 0)

DeepSeek技术模块演进，图中展现的是论文中可追溯的技术道路和模块关系，不等同于严厉代码复用率，「甲子光年」制图

第一条主线是参数效率。从V2引入MoE（稀疏混合专家架构），到V3延续并强化多Token预测策略，再到V4在MoE框架上继续压低激活参数和推理成本。一路都在往“激活更少参数、完成异样义务”的方向走。

第二条主线是长上下文效率。模型处理的历史越长，需求保存的中间记忆越多，成本越高。

用一个比喻来了解，传统大模型像把整本书摊开，每回答一个成绩都要从头翻一遍。DeepSeek从V2末尾就在想，能不能把近处内容保留原文、远处内容做成目录、更远处内容压成章节摘要？

这个想法从V2的MLA（多头潜在留意力），到V3.2的NSA（原生稀疏留意力），不断演化到V4的Hybrid Attention（混合留意力系统）。

V4技术报告显示，在100万Token的长上下文场景下，V4-Pro的单Token推理计算量约为V3.2的27%，KV Cache占用约为其10%。

第三条主线是后训练整合。R1证明了大规模强化学习可以分明激发模型推理才能。到了V4，思绪延伸为在数学、代码等范畴分别练强，再一致“毕业”——经过同策略蒸馏（OPD）将才能合并进一致模型，减少混训时的互相关扰。

此外，Prover系列服务于数学与方式化推理，OCR道路为视觉输入紧缩提供低成本方案，mHC与Muon是更底层的训练波动性优化。每个关键模块先在小规模论文里反复实验，随后进入旗舰，最后沉淀成整个团队的工程实际。

「甲子光年」看来，V4的重点不是更大或更强，而是让模型不只能想得更深，也能在更长、更复杂的义务中，以更低成本持续运转。

DeepSeek的思绪可以概括为：不堆卡，不打榜；先验证，再集成；死磕系统效率，打破算力限制。27篇论文里几乎没有围绕benchmark刷分的工作，全都在处理详细的工程瓶颈。

梁文锋说过：“假如目的是做运用，沿用Llama结构短平快上产品也合理。但我们目的地是AGI，需求研讨新的模型结构，在有限资源下完成更强的模型才能。”

值得留意的是，DeepSeek甚至把底层算子库从主流的CUDA和Triton换成了北大团队开源的TileLang，V3.1的数据紧缩格式也是针对下一代国产芯片设计的。在追求极致效率的同时，他们还在做一件更长远的事：基于国产生态来做大模型。

5.挖走人，带不走体系

人才活动不会中止。在AI行业，顶尖研发作者被高薪争抢几乎是常态。DeepSeek也不会例外。

但假如用挖人来判别一家公司的波动性，这个框架本身就有成绩——尤其当这家公司的竞争力，根本不依靠于几个明星个体。

大众总爱看天赋的故事，但27篇论文的数据讲了一个更难被概括的故事。数据呈现的DeepSeek是：79位多边形战士、24位参与10篇以上论文的骨干、两年半前的初代成员87%仍选择留上去。

更重要的是，这张网络里有25位跨界枢纽，把研发串联在一同，没有固定部门墙，研讨员根据兴味和成绩动态集结。

而那两年积累上去的技术道路——从MoE到MLA到GRPO到mHC——每个模块都经过前序论文的反复验证，早已内化在整个团队的工程实际里。

梁文锋说过：“我们把价值沉淀在团队上，同事在过程中得到成长，积累很多know-how，构成可以创新的组织和文明，就是我们的护城河。”

这能够才是500亿美元估值背后，最值得被重新定价的东西。

彩蛋：开放我们“数据侦探工具包”

这篇稿件背后也是一场用Agent工具研讨AI公司的实验。完全没有代码基础的我们，居然依托AI做到了“零手搓”，除了手敲注释。

过去两周，我们跑通了一套由Codex辅助的数据工作流，爬取并清洗上万条数据，计算复杂的聚类网络，制造一切图表。

简单说：人类担任发现成绩、定义统计口径，Agent担任把脏活干完，能用token处理的事，绝不动手。

我们决议把这套方法开放，假如你对文章背后的数据、脚本和工程方法论感兴味，请关注公众号「甲子光年」，在公众号后台私信回复“DeepSeek”，即可获得下载链接，内含：

1.DeepSeek论文数据集：包含27篇技术报告的元数据、作者清洗字典、多栖骨干统计、共著网络节点与边表等几十张CSV/JSON 数据表；

2.15个核心Python脚本：覆盖了从数据清洗、口径拆分到聚类分析、图表生成的全流程。你可以随时修正参数、调整权重，甚至重新验证我们的推演逻辑；

3.零基础指南：这两周，我们是如何指挥 Agent抓数据、写代码、踩坑、修Bug、反复改图的？我们把它整理成了一份事无巨细的实战指南。

非常等待大家和我们交流运用心得！

（封面图来源：AI生成）

(, 下载次数: 0)

END.

(, 下载次数: 0)

(, 下载次数: 0)

(, 下载次数: 0)

(, 下载次数: 0)

欢迎光临职贝云数AI新零售门户 (https://www.taojin168.com/cloud/)