职贝云数AI新零售门户

标题: 全球大模型公司简史08:DeepSeek时辰 [打印本页]

作者: ZqUIC 时间: 昨天 15:35
标题: 全球大模型公司简史08:DeepSeek时辰
假如说ChatGPT让普通人第一次感到“大模型会说话”，那么DeepSeek带来的震动更像发生内行业外部：原来在硬件受限、预算不如美国巨头的状况下，也能经过工程、算法和开放策略，做出足以让全球仔细对待的模型。

DeepSeek的母体背景，是中国量化投资公司幻方。幻方早年以数学建模、算法买卖和高功能计算出名，长期积累了GPU集群、工程团队和对大规模计算的组织才能。它后来孵化出DeepSeek，创始人与核心人物梁文锋也因此成为中国AI创业史上一个很特殊的角色：他不是从互联网流量产品起家，也不是传统云厂商高管，而是从量化、数学和算力系统走向基础模型。
梁文锋与幻方：从数字市场到言语模型

梁文锋公开出面不算多，外界对他的印象常常是低调、理工、注重长期研讨。幻方做量化时，本质上曾经在处理大量数据、复杂模型和计算资源调度。量化投资和大言语模型当然不是一回事，但它们共享一种底层才能：把数学模型放进真实系统里，让它在大规模数据与高压环境下运转。

这也是DeepSeek一末尾就不太像“运用创业”的缘由。它不是先做一个聊天App，再渐渐补模型；而是直接进入基础模型训练、推理、开源和开发者生态。它的关键词不是营销，而是参数、训练效率、MoE、推理成本、论文、权重和社区复现。
DeepSeek时辰：低成本叙事为何引爆全球

DeepSeek真正成为全球话题，是由于它让外界重新讨论大模型的成本结构。美国头部公司长期给人的印象是：训练前沿模型需求地理级GPU、巨额资金和封闭实验室。DeepSeek发布的一系列模型，尤其是推理模型R1，引发了一个尖锐成绩：假如更少资源也能接近强模型才能，那大模型行业的护城河到底在哪里？

这里需求慎重。外界关于训练成本、芯片数量、真实投入的讨论很多，其中有些数字被媒体简化甚至误读。更中性的说法是：DeepSeek公开呈现出的工程效率、训练方法和开放权重，让全球市场看法到，大模型竞争不只是“堆最多GPU”。数据质量、模型结构、训练配方、蒸馏、推理优化、团队执行力，都能够改变成本曲线。

这就是所谓“DeepSeek时辰”的核心：它不是单纯证明某家公司便宜，而是让世界重新估算AI才能分散的速度。
MoE：不是一切专家都要同时下班

DeepSeek的技术道路中，MoE是一个重要词。MoE全称Mixture of Experts，混合专家模型。可以把它想象成一个大型咨询公司，外面有许多专家团队：法律、数学、代码、写作、翻译、逻辑。每个成绩出去，系统不会让一切团队一同闭会，而是由一个“路由器”挑选最相关的多数专家处理。

这样做的好处是，模型总容量可以很大，但每次回答只激活一部分参数，推理成本相对可控。坏处是训练和调度更复杂：路由器要学会把成绩分给合适专家，专家之间不能太失衡，系统也要保证波动。MoE不是魔法，更像复杂工厂里的排班系统。DeepSeek在MoE结构上的工程实际，让它能在才能和成本之间获得比较醒目的平衡。
R1：让模型学会“想一想”

DeepSeek R1让普通读者最容易感到新颖的地方，是它强化了推理才能。所谓推理模型，不只是给出答案，而是更擅长处理数学、代码、逻辑、多步骤成绩。它像一个先生，不急着报结果，而是先在草稿纸上拆题。

R1相关工作让强化学习重新成为焦点。粗浅说，监督学习像教师给先生看标准答案，让先生模拟；强化学习更像给先生一套奖励规则，让它反复尝试，做对复杂题就得到更高奖励。对于推理义务来说，很多时分并没有单一句子级标准答案，关键是过程能否走到正确结果。经过强化学习，模型可以学到更长的思索链条和自我检查倾向。

蒸馏也是DeepSeek引发讨论的关键词。蒸馏可以了解为“让小模型向大模型学艺”。强模型生成大量示例或推理过程，小模型经过学习这些材料，在较小规模上获得部分才能。这样做能降低部署成本，也能让更多开发者在普通硬件上体验推理才能。DeepSeek开放相关模型后，社区很快出现大量复现、微调和运用尝试，阐明才能分散并不只靠闭源API。
开源带来的掌声与争议

DeepSeek的开放权重策略，是它获得全球关注的重要缘由。开发者可以下载模型，企业可以本地部署，研讨者可以分析行为，创业团队可以基于它做产品。这种开放让它在国际社区中迅速传播，也让中文模型第一次以如此强的存在感进入全球AI讨论。

下面一段是让OpenAI的codex写的一段评价，很有意思，openai偏离了最后的开源初心，反到对别人开源说三道四，下面的成见很重，大家带着批判欣赏：“但开放也带来争议。有人担心强模型被滥用，有人质疑训练数据来源和版权边界，有人讨论模型在不同政治、文明语境下的回答限制。还有一些讨论围绕硬件约束、出口管制与中国AI产业环境展开。DeepSeek恰恰站在这些议题交叉处：它既是技术公司，也是全球AI供应链和地缘技术竞争中的一个案例。”
硬件约束下的工程效率

中国AI公司面临的一个理想背景，是高端GPU获取受限。硬件约束并不会自动带来创新，但会迫使团队更注重效率。训练时如何减少糜费，数据如何挑选，模型结构如何设计，推理时如何降低显存占用和延迟，都会变成生死成绩。

DeepSeek的工程叙事因此特别打动行业：在资源不占相对优势时，能不能靠系统优化追下去？这相似汽车比赛里，有人用更大马力发动机，有人靠轻量车身、空气动力学和更精准换挡减少差距。大模型最终依然需求算力，但算力不是独一变量。
截至2026年6月的公开态势

到2026年6月，DeepSeek曾经是全球大模型版图中无法忽视的中国力气。它的模型、论文、开放权重和API服务持续影响开发者生态，也让国际科技公司、研讨机构和政策圈重新评价中国基础模型才能。围绕它的讨论依然热烈：有人赞赏其开放和效率，有人关注安全、合规和地缘政治风险。

在全球LLM历史中，DeepSeek的独特贡献，是把“工程效率”推到前台。它告诉行业，前沿才能并不只来自更封闭、更昂贵、更庞大的道路；也能够来自结构创新、训练方法、强化学习、蒸馏和开放社区的组合。它让许多人第一次看法到，大模型的历史不会只是美国巨头之间的竞赛，也会有来自不同约束条件下的包围。

DeepSeek像一把忽然亮起的手电筒，照到了大模型成本曲线的暗影处。它没有终结算力竞赛，也没有让一切成绩消逝，但它的确改变了人们发问的方式：将来的AI强者，终究是拥有最多芯片的人，还是最会运用芯片的人？

欢迎光临职贝云数AI新零售门户 (https://www.taojin168.com/cloud/)