职贝云数AI新零售门户

标题: DeepSeek与小米大模型降价的技术根源 [打印本页]

作者: A6Qua4jMtW 时间: 2026-5-28 14:55
标题: DeepSeek与小米大模型降价的技术根源
故事是这样的。

5月27日清晨，我在冤家圈看到一条音讯：小米MiMo大模型API永世降价99%。

我当时就愣住了。

这不是限时促销，不是节日优惠，是永世降价。最高降幅99%，输入缓存命中价格从1.40元/百万tokens直接降到0.025元。

就在前一天，DeepSeek也干了相似的事——V4-Pro永世降价75%，输入价格从3.48美元降到0.87美元。

这让我想起两年前第一次看到GPT-4定价时的震惊。那时分输入要10美元/百万tokens，我觉得贵得离谱。如今DeepSeek输入只需0.87美元，小米Pro版输入缓存命中只需0.025元。

这尼玛就是，大模型的价格曾经打到地板上了。

但真正让我猎奇的不是价格本身，而是，他们凭什么敢这么降？

先说清楚几个细节——降价都有前提条件，不是一切场景都适用。

很多人第一反应是，这是价格战，是内卷，是恶性竞争。

坦率的讲，我觉得这个了解太表面了。

价格战的前提是成本没变，只是把利润空间紧缩。但这次降价不一样——DeepSeek和小米的降价背后，是底层技术架构的彻底革新，是推理成本真的降上去了。

让我给你拆解一下。

先看DeepSeek-V4。这是2026年4月发布的版本，相比V3又有严重晋级。

第一个打破是混合留意力架构，CSA加HCA。

CSA是Compressed Sparse Attention，先把KV缓存紧缩，再用Lightning Indexer以FP4精度做稀疏选择。听着复杂对吧？其实就是让模型「挑重点看」，top-k召回率还能维持99.7%。

HCA是Heavily Compressed Attention，紧缩比128:1。粒度粗，但成本极低。

这两种留意力交替运用，在1M token上下文下，KV缓存紧缩到基线模型的2%，推理FLOPs仅为V3.2的27%。

大模型推理的瓶颈在哪？不是计算，是内存。KV缓存占内存的绝大部分。把KV缓存砍掉98%，成本自然断崖式下降。

第二个打破是mHC，Manifold-constrained Hyperconnection。

标准超衔接在深层堆叠时数值不波动，mHC用双随机矩阵约束来保证谱范数≤1，信号不会爆炸。这是数学层面的波动性保证。

说白了，就是让网络能堆得更深而不崩。

第三个是DeepSeekMoE晋级。

V4-Pro总参数1.6T，激活49B，激活比例3%。相比V3的671B/37B，规模翻了一倍多，但激活比例更低。

每个token激活的专家数量更多，但路由更精准，计算效率反而更高。

第四个是Muon优化器。

传统AdamW收敛慢、训练不波动。Muon对权重梯度执行矩阵正交化，让不同参数方向互相独立。混合Newton-Schulz正交化，10次迭代就能准确波动到奇特值为1。

这些技术叠加，V4在1M上下文下的推理成本只要V3.2的非常之一，但功能更强。

十年写代码，我见过太多「参数越大越贵」的圈套。DeepSeek这次，是真的把成本结构打碎了。

小米这边，走的是另一条路。

MiMo-V2.5的总参数只要309B，激活参数15B。说假话，这参数规模甚至不足以称之为「大模型」。

但它有个更牛逼的地方——代码才能和Agent才能，在全球开源模型里排Top2。

这让我想起罗福莉在小米的初次公开演讲。她没讲什么大词，就讲了几个核心创新。

第一个是Hybrid Attention结构。

它采用Sliding Window Attention和Full Attention结合，比例5:1。

有人能够会问，为什么不用Linear Attention？罗福莉说，经过大量实验验证，Sliding Window Attention在兼顾长短文推理和知识检索的综合功能上，其实更简单有效。而且它的KV Cache是固定的，能非常好地适配主流推理框架。

简单有效。就四个字，但背后是有数次实验堆出来的。

第二个是对MTP潜能的深度发掘。

MTP最后是用来推理加速的，但小米团队发现，训练时加入MTP层能提升基座模型潜能，微调时加入更多MTP层，能以大批算力分明提升MTP层的接受率。

推理阶段，经过三层MTP加速并行验证，完成了2到2.6倍的实践推理加速。

单机吞吐达到5000到15000 Tokens/秒。这是什么概念？你想想，一个模型每秒能处理一万多个tokens，相当于每分钟能读完一篇残缺的技术文档。

第三个是MOPD范式，Multi-Teacher On-Policy Distillation。

传统后训练是SFT加RL，但强化学习训练的核心痛点是不波动性。MOPD范式基于Token Level Reward停止监督学习，具有极强的On Policy特性。

先生模型基于本身概率分布Roll Out序列，专家模型对序列停止概率分布打分，提供稠密的Token Level监督信号。

这种方式的学习效率极高，仅需几十步就能将各范畴专家模型的才能疾速蒸馏到目的模型上。

说假话，我看完罗福莉的演讲，最大的感受是——小米团队真的很「务虚」。

他们不跟你玩参数竞赛，不吹嘘万亿参数。309B的总参数，激活15B，这配置放在两年前会被笑死。但结果呢，代码和Agent才能全球开源Top2。

这让我想到一个道理：有时分，慢就是快。

DeepSeek是把成本结构打碎，小米是把参数效率榨干。两条路，异曲同工。

假如说架构创新是「内功」，那缓存技术就是「招式」。

DeepSeek的上下文缓存（Context Caching）是一切模型中最激进的。

缓存命中的价格，V4-Flash是$0.0028/M tokens，V4-Pro是$0.0036/M tokens。

这是什么概念？很多开源模型本地部署的成本都比这个高。

缓存的工作原理其实有两种，很多人容易搞混。

第一种是上下文缓存（Context Caching）。这是DeepSeek这次降价的核心。它缓存的是系统提示词的KV矩阵，不是答案本身。

当你每次央求都带着相反的system prompt时，DeepSeek会把这部分KV形态存起来。下次央求时，系统提示词部分几乎零成本——由于KV缓存直接命中，不用重新计算。只要用户的成绩需求正常计算和计费。

这就是为什么降价幅度这么激进：缓存命中的输入价格只要原价的1/10左右。

第二种是语义缓存。用嵌入模型把央求变成向量，在历史央求库里找相似的，然后前往之前缓存的答案。

但这个方法有局限——相似度阈值设太高会漏掉成绩，设太低会前往错误答案。而且缓存的答案能够过时，需求定期更新。多轮对话场景下复杂度指数增长。

实践命中率呢，看场景差别很大。客服机器人这种反复成绩多的，命中率能到30-40%。通用AI助手能够只要10-20%。代码生成更惨，能够连10%都不到。

小米MiMo这次降价，缓存命中输入价格降幅高达99%，就是打的这个点。

回到成本这块，除了缓存，还有两个技术让成本进一步下降。

一个是批量推理。

这个好了解，就是把多个央求打包一次处理。大模型处理单条央求时，权重加载、KV缓存初始化和留意力计算这些固定开支太大了。就像你去超市买东西，一次只买一瓶水，结账排队的工夫比买东西还长。批量推理就是把多个央求拼接成一个批次同时处理，摊薄这些开支。

我实践测过，批量推理能让单央求平均成本降低约30%，同时吞吐量蹭蹭往上走。完成上需求一个动态批处理器，在短工夫窗口内搜集央求，当数量达到批次下限或等待超时后合并发送。不同央求的输入长度差异过大会导致填充糜费，所以更精细的做法是按Token长度分桶，将长度相近的央求放在同一批次。

另一个是模型降级。

说白了，不是一切央求都需求调用最弱小、最昂贵的旗舰模型。你想想看，日常义务完全可以用参数规模小得多的模型来处理。

我给本人公司搭系统的时分就是这么干的。高价值或高复杂度场景，比如金交融同的风险分析、复杂代码的生成与调试，必须运用最强的大模型。中等复杂度场景，比如常规的文章摘要、情感分析，用中等规模的模型就够了。低敏感度或简单义务，比如外部知识库的常见问答、日志信息的解析，直接交给本地部署的小模型。

为了完成这种分级调用，系统需求在央求入口处计算一个「重要性分数」，这个分数可以基于用户等级、义务类型、预期风险等要素综合得出。路由层根据这个分数自动选择对应的模型等级，效果损失通常控制在可接受的5%以内，而成本下降却非常分明。

说白了，就是别用大炮打蚊子。

让我给你算笔账。

假设你每天处理1000万输入tokens + 500万输入tokens。

用GPT-5.5的话，输入5美元/M，输入30美元/M。
输入成本：10M × $5 = $50
输入成本：5M × $30 = $150
每日总成本：$200
每月总成本：$6,000

用DeepSeek V4-Pro（折扣后，50%缓存命中率）：
输入（缓存命中）：5M × $0.0036 = $0.018
输入（缓存未命中）：5M × $0.435 = $2.175
输入：5M × $0.87 = $4.35
每日总成本：~$6.54
每月总成本：~$196

每月节省超过$2,000。

对于创业团队来说，这是一笔可观的云计算支出。

DeepSeek V4-Pro永世降价75%，小米MiMo永世降价99%。

这看起来是价格战的末尾，但我觉得，这其实是AI普惠化的真正终点。

过去我们说「按参数量定价」，一个671B的模型应该比72B的贵十倍。但如今，定价逻辑变了。

定价的核心逻辑是：Token成本由GPU计算和内存读取决议，其中内存瓶颈（权重读取和KV缓存）是关键。

权重读取成本可经过增大batch size分摊，但KV缓存是个人专属无法摊薄，成为成本硬下限。

MoE模型的物理部署受限于机架内带宽，而过度训练（数据量远超参数规模）实则是为了降低推理成本的经济选择。

这些硬件限制决议了当前大模型的定价策略。

当技术效率提升，成本下限被打破，价格自然下降。

这不是内卷，这是提高。

假如你还在用GPT-5.5或者Claude，如今是迁移的最佳机遇。

三个建议：

第一，巧用缓存命中。把固定的system prompt放在后面，动态的user query放在后面。这样缓存命中率最高。

第二，完成模型路由。简单义务用Flash，复杂推理用Pro。配合自动降级策略，超时就切到便宜模型。

第三，批量处理。不要一个一个央求，攒一批一同发。配合asyncio，能分明提升吞吐量。

我写这篇文章的时分，不断在想一个成绩。

两年前的我，看到GPT-4的定价会觉得贵得离谱。明天的我，看到DeepSeek和小米的定价会觉得便宜得不可思议。

但真正让我兴奋的不是价格本身，而是，技术真的在提高。

CSA+HCA让KV缓存砍到98%，MoE让计算量降至V3.2的27%，MTP让推理加速2到2.6倍。这些不是营销话术，是实打实的技术打破。

过去我们总说AI会取代程序员，会说AI会让工作变得廉价。但我觉得，真正被取代的，是那些不情愿学习新技术的人。

技术效率的提升，最终会让AI变得更普惠。就像当年的互联网，就像当年的智能手机。

大模型的价格打到地板上，不是终点。

是终点。

对了，最后再说几句心里话。

这篇文章我写了大半天。查材料、做对比、算账、反复修正。虽然尽量把每个技术细节都核实过，但AI这行技术迭代太快，有些地方的了解能够还是有偏向。

比如DeepSeek-V4的某些架构细节，我是经过技术报告和社区解读拼凑出来的，不一定完全准确。小米那边，我次要参考了罗福莉的公开演讲，但她的演讲里有些数据能够曾经更新了。

所以，假如你是大模型范畴的专家，或者正在用这两个模型做开发，发现我哪里说错了、了解偏了——欢迎在评论区批判指正。我真的需求听到不同的声响。

AI这行，信息差太大了。明天你看到的「降价99%」，能够只适用于特定场景；明天你看到的「推理加速2倍」，能够只针对某些义务。

我的义务不是给你结论，而是把技术细节掰开揉碎，让你本人判别。哪怕最后发现我有些地方写错了，至少你知道了怎样本人去查证。

这才是「永远对世界保持猎奇」该有的样子——保持开放，保持怀疑，保持学习。

谢谢大家。

欢迎光临职贝云数AI新零售门户 (https://www.taojin168.com/cloud/)