职贝云数AI新零售门户
标题:
全球大模型公司简史08:DeepSeek时辰
[打印本页]
作者:
ZqUIC
时间:
昨天 15:35
标题:
全球大模型公司简史08:DeepSeek时辰
假如说ChatGPT让普通人第一次感到“大模型会说话”,那么DeepSeek带来的震动更像发生内行业外部:原来在硬件受限、预算不如美国巨头的状况下,也能经过工程、算法和开放策略,做出足以让全球仔细对待的模型。
DeepSeek的母体背景,是中国量化投资公司幻方。幻方早年以数学建模、算法买卖和高功能计算出名,长期积累了GPU集群、工程团队和对大规模计算的组织才能。它后来孵化出DeepSeek,创始人与核心人物梁文锋也因此成为中国AI创业史上一个很特殊的角色:他不是从互联网流量产品起家,也不是传统云厂商高管,而是从量化、数学和算力系统走向基础模型。
梁文锋与幻方:从数字市场到言语模型
梁文锋公开出面不算多,外界对他的印象常常是低调、理工、注重长期研讨。幻方做量化时,本质上曾经在处理大量数据、复杂模型和计算资源调度。量化投资和大言语模型当然不是一回事,但它们共享一种底层才能:把数学模型放进真实系统里,让它在大规模数据与高压环境下运转。
这也是DeepSeek一末尾就不太像“运用创业”的缘由。它不是先做一个聊天App,再渐渐补模型;而是直接进入基础模型训练、推理、开源和开发者生态。它的关键词不是营销,而是参数、训练效率、MoE、推理成本、论文、权重和社区复现。
DeepSeek时辰:低成本叙事为何引爆全球
DeepSeek真正成为全球话题,是由于它让外界重新讨论大模型的成本结构。美国头部公司长期给人的印象是:训练前沿模型需求地理级GPU、巨额资金和封闭实验室。DeepSeek发布的一系列模型,尤其是推理模型R1,引发了一个尖锐成绩:假如更少资源也能接近强模型才能,那大模型行业的护城河到底在哪里?
这里需求慎重。外界关于训练成本、芯片数量、真实投入的讨论很多,其中有些数字被媒体简化甚至误读。更中性的说法是:DeepSeek公开呈现出的工程效率、训练方法和开放权重,让全球市场看法到,大模型竞争不只是“堆最多GPU”。数据质量、模型结构、训练配方、蒸馏、推理优化、团队执行力,都能够改变成本曲线。
这就是所谓“DeepSeek时辰”的核心:它不是单纯证明某家公司便宜,而是让世界重新估算AI才能分散的速度。
MoE:不是一切专家都要同时下班
DeepSeek的技术道路中,MoE是一个重要词。MoE全称Mixture of Experts,混合专家模型。可以把它想象成一个大型咨询公司,外面有许多专家团队:法律、数学、代码、写作、翻译、逻辑。每个成绩出去,系统不会让一切团队一同闭会,而是由一个“路由器”挑选最相关的多数专家处理。
这样做的好处是,模型总容量可以很大,但每次回答只激活一部分参数,推理成本相对可控。坏处是训练和调度更复杂:路由器要学会把成绩分给合适专家,专家之间不能太失衡,系统也要保证波动。MoE不是魔法,更像复杂工厂里的排班系统。DeepSeek在MoE结构上的工程实际,让它能在才能和成本之间获得比较醒目的平衡。
R1:让模型学会“想一想”
DeepSeek R1让普通读者最容易感到新颖的地方,是它强化了推理才能。所谓推理模型,不只是给出答案,而是更擅长处理数学、代码、逻辑、多步骤成绩。它像一个先生,不急着报结果,而是先在草稿纸上拆题。
R1相关工作让强化学习重新成为焦点。粗浅说,监督学习像教师给先生看标准答案,让先生模拟;强化学习更像给先生一套奖励规则,让它反复尝试,做对复杂题就得到更高奖励。对于推理义务来说,很多时分并没有单一句子级标准答案,关键是过程能否走到正确结果。经过强化学习,模型可以学到更长的思索链条和自我检查倾向。
蒸馏也是DeepSeek引发讨论的关键词。蒸馏可以了解为“让小模型向大模型学艺”。强模型生成大量示例或推理过程,小模型经过学习这些材料,在较小规模上获得部分才能。这样做能降低部署成本,也能让更多开发者在普通硬件上体验推理才能。DeepSeek开放相关模型后,社区很快出现大量复现、微调和运用尝试,阐明才能分散并不只靠闭源API。
开源带来的掌声与争议
DeepSeek的开放权重策略,是它获得全球关注的重要缘由。开发者可以下载模型,企业可以本地部署,研讨者可以分析行为,创业团队可以基于它做产品。这种开放让它在国际社区中迅速传播,也让中文模型第一次以如此强的存在感进入全球AI讨论。
下面一段是让OpenAI的codex写的一段评价,很有意思,openai偏离了最后的开源初心,反到对别人开源说三道四,下面的成见很重,大家带着批判欣赏:“但开放也带来争议。有人担心强模型被滥用,有人质疑训练数据来源和版权边界,有人讨论模型在不同政治、文明语境下的回答限制。还有一些讨论围绕硬件约束、出口管制与中国AI产业环境展开。DeepSeek恰恰站在这些议题交叉处:它既是技术公司,也是全球AI供应链和地缘技术竞争中的一个案例。”
硬件约束下的工程效率
中国AI公司面临的一个理想背景,是高端GPU获取受限。硬件约束并不会自动带来创新,但会迫使团队更注重效率。训练时如何减少糜费,数据如何挑选,模型结构如何设计,推理时如何降低显存占用和延迟,都会变成生死成绩。
DeepSeek的工程叙事因此特别打动行业:在资源不占相对优势时,能不能靠系统优化追下去?这相似汽车比赛里,有人用更大马力发动机,有人靠轻量车身、空气动力学和更精准换挡减少差距。大模型最终依然需求算力,但算力不是独一变量。
截至2026年6月的公开态势
到2026年6月,DeepSeek曾经是全球大模型版图中无法忽视的中国力气。它的模型、论文、开放权重和API服务持续影响开发者生态,也让国际科技公司、研讨机构和政策圈重新评价中国基础模型才能。围绕它的讨论依然热烈:有人赞赏其开放和效率,有人关注安全、合规和地缘政治风险。
在全球LLM历史中,DeepSeek的独特贡献,是把“工程效率”推到前台。它告诉行业,前沿才能并不只来自更封闭、更昂贵、更庞大的道路;也能够来自结构创新、训练方法、强化学习、蒸馏和开放社区的组合。它让许多人第一次看法到,大模型的历史不会只是美国巨头之间的竞赛,也会有来自不同约束条件下的包围。
DeepSeek像一把忽然亮起的手电筒,照到了大模型成本曲线的暗影处。它没有终结算力竞赛,也没有让一切成绩消逝,但它的确改变了人们发问的方式:将来的AI强者,终究是拥有最多芯片的人,还是最会运用芯片的人?
欢迎光临 职贝云数AI新零售门户 (https://www.taojin168.com/cloud/)
Powered by Discuz! X3.5