职贝云数AI新零售门户

标题: DeepSeek与小米大模型降价的技术根源 [打印本页]

作者: A6Qua4jMtW    时间: 2026-5-28 14:55
标题: DeepSeek与小米大模型降价的技术根源
故事是这样的。

5月27日清晨,我在冤家圈看到一条音讯:小米MiMo大模型API永世降价99%。

我当时就愣住了。

这不是限时促销,不是节日优惠,是永世降价。最高降幅99%,输入缓存命中价格从1.40元/百万tokens直接降到0.025元。

就在前一天,DeepSeek也干了相似的事——V4-Pro永世降价75%,输入价格从3.48美元降到0.87美元。

这让我想起两年前第一次看到GPT-4定价时的震惊。那时分输入要10美元/百万tokens,我觉得贵得离谱。如今DeepSeek输入只需0.87美元,小米Pro版输入缓存命中只需0.025元。

这尼玛就是,大模型的价格曾经打到地板上了。

但真正让我猎奇的不是价格本身,而是,他们凭什么敢这么降?

先说清楚几个细节——降价都有前提条件,不是一切场景都适用。


很多人第一反应是,这是价格战,是内卷,是恶性竞争。

坦率的讲,我觉得这个了解太表面了。

价格战的前提是成本没变,只是把利润空间紧缩。但这次降价不一样——DeepSeek和小米的降价背后,是底层技术架构的彻底革新,是推理成本真的降上去了。

让我给你拆解一下。

先看DeepSeek-V4。这是2026年4月发布的版本,相比V3又有严重晋级。

第一个打破是混合留意力架构,CSA加HCA。

CSA是Compressed Sparse Attention,先把KV缓存紧缩,再用Lightning Indexer以FP4精度做稀疏选择。听着复杂对吧?其实就是让模型「挑重点看」,top-k召回率还能维持99.7%。

HCA是Heavily Compressed Attention,紧缩比128:1。粒度粗,但成本极低。

这两种留意力交替运用,在1M token上下文下,KV缓存紧缩到基线模型的2%,推理FLOPs仅为V3.2的27%。

大模型推理的瓶颈在哪?不是计算,是内存。KV缓存占内存的绝大部分。把KV缓存砍掉98%,成本自然断崖式下降。

第二个打破是mHC,Manifold-constrained Hyperconnection。

标准超衔接在深层堆叠时数值不波动,mHC用双随机矩阵约束来保证谱范数≤1,信号不会爆炸。这是数学层面的波动性保证。

说白了,就是让网络能堆得更深而不崩。

第三个是DeepSeekMoE晋级。

V4-Pro总参数1.6T,激活49B,激活比例3%。相比V3的671B/37B,规模翻了一倍多,但激活比例更低。

每个token激活的专家数量更多,但路由更精准,计算效率反而更高。

第四个是Muon优化器。

传统AdamW收敛慢、训练不波动。Muon对权重梯度执行矩阵正交化,让不同参数方向互相独立。混合Newton-Schulz正交化,10次迭代就能准确波动到奇特值为1。

这些技术叠加,V4在1M上下文下的推理成本只要V3.2的非常之一,但功能更强。

十年写代码,我见过太多「参数越大越贵」的圈套。DeepSeek这次,是真的把成本结构打碎了。


小米这边,走的是另一条路。

MiMo-V2.5的总参数只要309B,激活参数15B。说假话,这参数规模甚至不足以称之为「大模型」。

但它有个更牛逼的地方——代码才能和Agent才能,在全球开源模型里排Top2。

这让我想起罗福莉在小米的初次公开演讲。她没讲什么大词,就讲了几个核心创新。

第一个是Hybrid Attention结构。

它采用Sliding Window Attention和Full Attention结合,比例5:1。

有人能够会问,为什么不用Linear Attention?罗福莉说,经过大量实验验证,Sliding Window Attention在兼顾长短文推理和知识检索的综合功能上,其实更简单有效。而且它的KV Cache是固定的,能非常好地适配主流推理框架。

简单有效。就四个字,但背后是有数次实验堆出来的。

第二个是对MTP潜能的深度发掘。

MTP最后是用来推理加速的,但小米团队发现,训练时加入MTP层能提升基座模型潜能,微调时加入更多MTP层,能以大批算力分明提升MTP层的接受率。

推理阶段,经过三层MTP加速并行验证,完成了2到2.6倍的实践推理加速。

单机吞吐达到5000到15000 Tokens/秒。这是什么概念?你想想,一个模型每秒能处理一万多个tokens,相当于每分钟能读完一篇残缺的技术文档。

第三个是MOPD范式,Multi-Teacher On-Policy Distillation。

传统后训练是SFT加RL,但强化学习训练的核心痛点是不波动性。MOPD范式基于Token Level Reward停止监督学习,具有极强的On Policy特性。

先生模型基于本身概率分布Roll Out序列,专家模型对序列停止概率分布打分,提供稠密的Token Level监督信号。

这种方式的学习效率极高,仅需几十步就能将各范畴专家模型的才能疾速蒸馏到目的模型上。

说假话,我看完罗福莉的演讲,最大的感受是——小米团队真的很「务虚」。

他们不跟你玩参数竞赛,不吹嘘万亿参数。309B的总参数,激活15B,这配置放在两年前会被笑死。但结果呢,代码和Agent才能全球开源Top2。

这让我想到一个道理:有时分,慢就是快。

DeepSeek是把成本结构打碎,小米是把参数效率榨干。两条路,异曲同工。


假如说架构创新是「内功」,那缓存技术就是「招式」。

DeepSeek的上下文缓存(Context Caching)是一切模型中最激进的。

缓存命中的价格,V4-Flash是$0.0028/M tokens,V4-Pro是$0.0036/M tokens。

这是什么概念?很多开源模型本地部署的成本都比这个高。

缓存的工作原理其实有两种,很多人容易搞混。

第一种是上下文缓存(Context Caching)。这是DeepSeek这次降价的核心。它缓存的是系统提示词的KV矩阵,不是答案本身。

当你每次央求都带着相反的system prompt时,DeepSeek会把这部分KV形态存起来。下次央求时,系统提示词部分几乎零成本——由于KV缓存直接命中,不用重新计算。只要用户的成绩需求正常计算和计费。

这就是为什么降价幅度这么激进:缓存命中的输入价格只要原价的1/10左右。

第二种是语义缓存。用嵌入模型把央求变成向量,在历史央求库里找相似的,然后前往之前缓存的答案。

但这个方法有局限——相似度阈值设太高会漏掉成绩,设太低会前往错误答案。而且缓存的答案能够过时,需求定期更新。多轮对话场景下复杂度指数增长。

实践命中率呢,看场景差别很大。客服机器人这种反复成绩多的,命中率能到30-40%。通用AI助手能够只要10-20%。代码生成更惨,能够连10%都不到。

小米MiMo这次降价,缓存命中输入价格降幅高达99%,就是打的这个点。

回到成本这块,除了缓存,还有两个技术让成本进一步下降。

一个是批量推理。

这个好了解,就是把多个央求打包一次处理。大模型处理单条央求时,权重加载、KV缓存初始化和留意力计算这些固定开支太大了。就像你去超市买东西,一次只买一瓶水,结账排队的工夫比买东西还长。批量推理就是把多个央求拼接成一个批次同时处理,摊薄这些开支。

我实践测过,批量推理能让单央求平均成本降低约30%,同时吞吐量蹭蹭往上走。完成上需求一个动态批处理器,在短工夫窗口内搜集央求,当数量达到批次下限或等待超时后合并发送。不同央求的输入长度差异过大会导致填充糜费,所以更精细的做法是按Token长度分桶,将长度相近的央求放在同一批次。

另一个是模型降级。

说白了,不是一切央求都需求调用最弱小、最昂贵的旗舰模型。你想想看,日常义务完全可以用参数规模小得多的模型来处理。

我给本人公司搭系统的时分就是这么干的。高价值或高复杂度场景,比如金交融同的风险分析、复杂代码的生成与调试,必须运用最强的大模型。中等复杂度场景,比如常规的文章摘要、情感分析,用中等规模的模型就够了。低敏感度或简单义务,比如外部知识库的常见问答、日志信息的解析,直接交给本地部署的小模型。

为了完成这种分级调用,系统需求在央求入口处计算一个「重要性分数」,这个分数可以基于用户等级、义务类型、预期风险等要素综合得出。路由层根据这个分数自动选择对应的模型等级,效果损失通常控制在可接受的5%以内,而成本下降却非常分明。

说白了,就是别用大炮打蚊子。


让我给你算笔账。

假设你每天处理1000万输入tokens + 500万输入tokens。

用GPT-5.5的话,输入5美元/M,输入30美元/M。
输入成本:10M × $5 = $50
输入成本:5M × $30 = $150
每日总成本:$200
每月总成本:$6,000

用DeepSeek V4-Pro(折扣后,50%缓存命中率):
输入(缓存命中):5M × $0.0036 = $0.018
输入(缓存未命中):5M × $0.435 = $2.175
输入:5M × $0.87 = $4.35
每日总成本:~$6.54
每月总成本:~$196

每月节省超过$2,000。

对于创业团队来说,这是一笔可观的云计算支出。


DeepSeek V4-Pro永世降价75%,小米MiMo永世降价99%。

这看起来是价格战的末尾,但我觉得,这其实是AI普惠化的真正终点。

过去我们说「按参数量定价」,一个671B的模型应该比72B的贵十倍。但如今,定价逻辑变了。

定价的核心逻辑是:Token成本由GPU计算和内存读取决议,其中内存瓶颈(权重读取和KV缓存)是关键。

权重读取成本可经过增大batch size分摊,但KV缓存是个人专属无法摊薄,成为成本硬下限。

MoE模型的物理部署受限于机架内带宽,而过度训练(数据量远超参数规模)实则是为了降低推理成本的经济选择。

这些硬件限制决议了当前大模型的定价策略。

当技术效率提升,成本下限被打破,价格自然下降。

这不是内卷,这是提高。


假如你还在用GPT-5.5或者Claude,如今是迁移的最佳机遇。

三个建议:

第一,巧用缓存命中。把固定的system prompt放在后面,动态的user query放在后面。这样缓存命中率最高。

第二,完成模型路由。简单义务用Flash,复杂推理用Pro。配合自动降级策略,超时就切到便宜模型。

第三,批量处理。不要一个一个央求,攒一批一同发。配合asyncio,能分明提升吞吐量。


我写这篇文章的时分,不断在想一个成绩。

两年前的我,看到GPT-4的定价会觉得贵得离谱。明天的我,看到DeepSeek和小米的定价会觉得便宜得不可思议。

但真正让我兴奋的不是价格本身,而是,技术真的在提高。

CSA+HCA让KV缓存砍到98%,MoE让计算量降至V3.2的27%,MTP让推理加速2到2.6倍。这些不是营销话术,是实打实的技术打破。

过去我们总说AI会取代程序员,会说AI会让工作变得廉价。但我觉得,真正被取代的,是那些不情愿学习新技术的人。

技术效率的提升,最终会让AI变得更普惠。就像当年的互联网,就像当年的智能手机。

大模型的价格打到地板上,不是终点。

是终点。


对了,最后再说几句心里话。

这篇文章我写了大半天。查材料、做对比、算账、反复修正。虽然尽量把每个技术细节都核实过,但AI这行技术迭代太快,有些地方的了解能够还是有偏向。

比如DeepSeek-V4的某些架构细节,我是经过技术报告和社区解读拼凑出来的,不一定完全准确。小米那边,我次要参考了罗福莉的公开演讲,但她的演讲里有些数据能够曾经更新了。

所以,假如你是大模型范畴的专家,或者正在用这两个模型做开发,发现我哪里说错了、了解偏了——欢迎在评论区批判指正。我真的需求听到不同的声响。

AI这行,信息差太大了。明天你看到的「降价99%」,能够只适用于特定场景;明天你看到的「推理加速2倍」,能够只针对某些义务。

我的义务不是给你结论,而是把技术细节掰开揉碎,让你本人判别。哪怕最后发现我有些地方写错了,至少你知道了怎样本人去查证。

这才是「永远对世界保持猎奇」该有的样子——保持开放,保持怀疑,保持学习。

谢谢大家。




欢迎光临 职贝云数AI新零售门户 (https://www.taojin168.com/cloud/) Powered by Discuz! X3.5