职贝云数AI新零售门户

标题: DeepSeek用算法红利重塑AI定价权 [打印本页]

作者: eQrFHY 时间: 3 天前
标题: DeepSeek用算法红利重塑AI定价权
从“技术对决”到“性价比和平”｜图源：AIGC

作者／  IT时报  贾天荣

编辑／  王昕  孙妍

4月24日，DeepSeek正式发布并开源DeepSeek V4系列预览版本。间隔V3炸开行业水面的一年多后，这条“鲇鱼”再次入局。

彼时，DeepSeek把AI大模型的价格从“高高在上”拉到了“人人可用”——API调用成本仅为GPT-4的百分之一，功能却正面硬刚。这一印象至今仍是它最鲜明的标签。

但过去一年，牌桌变了。从AI Agent的迸发到百万级长文本的普及，Token的耗费量正呈指数级激增。当下的行业堕入了一个悖论：AI越来越好用，但也越来越贵。

在这个工夫点，DeepSeek V4试图回答的曾经不只是“更强”，而是如何让AI继续用得起。

(, 下载次数: 0)

模型越来越像

性价比才是独一变量

当前大模型市场正进入转机期——模型才能差距疾速收敛。

“不管是开源模型还是闭源模型，都在互相蒸馏、互相对齐，结果就是才能越来越接近。”山海引擎COO彭璐告诉《IT时报》记者，如今模型之间的差异，更多曾经从过去的“60分和90分”，减少到“98分和99分”的纤细差别。

才能差距的收敛，直接改变了市场的选择逻辑。“为什么像MiniMax这类模型最近卖得很火？本质缘由是它曾经达到主流模型80%以上的才能，但成本能够连一半都不到。”在才能趋同的背景下，性价比成为企业决策的关键要素。

(, 下载次数: 0)

基于这一判别，彭璐以为，大模型将来将逐渐从“技术产品”转变为“基础消费工具”，“就像发电机一样，不同技术道路（火电、核电）能够存在差异，但在一定效率区间内是可以接近的。”

因此，在不少业内人士看来，当前国产大模型的竞争重点，不应局限于模型才能本身的“对标与PK”，而是应尽快进入产业层面的规划。将来的关键在于算力和数据中心。相比公有化部署项目，面向全市场提供Token服务的形式空间更大，而前者往往定制化程度高、节拍较慢。

“假如把将来的数据中心看作‘电厂’，那么Token就是电力。”彭璐用类比解释称，将来企业购买的将不再是详细模型，而是按类型计价的Token才能，例如文本、图像、语音等，不同模型之间的差异会被弱化，最终构成相似电力市场的一致定价体系。

“模型会逐渐变成一种消费工具。”他表示，模型厂商之间的竞争，也将从“谁更先进”转向“谁的工具被更多场景采用”。

(, 下载次数: 0)

AI变贵的真相

实践是AI用得多了

回到理想，一个悖论依然横亘内行业面前：AI分明越来越好用了，行业却在喊贵。成绩不在“单价”，而在“用量”。

假如说V3的意义是“把价格打上去”，那么V4所处的阶段，是价格战进入深水区——随着“小龙虾”在内的Agent大火，长上下文的普及，AI运用迸发带来的Token耗费指数级激增。

“往年以来Token需求至少呈10倍增长。”彭璐分析，目前部分客户的算力需求已出现分明紧张，GPU租赁市场价格也随之下跌，H100、H200租赁价格下跌20%～30%，零件价格涨幅甚至达到50%，二手设备价格比以前的新设备都要贵。

DeepSeek给出的解法，不是简单降价，而是重构成本结构。

V4发布第二天，DeepSeek官网更新API文档，宣布DeepSeek V4 Pro降价，开启2.5折限时优惠。调价后，DeepSeek V4 Pro每百万Tokens输入价格（缓存命中）为0.25元，输入价格（缓存未命中）为3元，输入价格为6元。此次优惠活动将持续至5月5日23点59分。

紧接着第二天（4月26日晚），DeepSeek宣布，全系API的输入缓存命中价，永世降至原有价格的1/10。最新调价后，DeepSeek V4 Flash每百万Tokens输入缓存命中价格为0.02元，DeepSeek V4 Pro为0.025元（已调价基础上的非常之一）。

(, 下载次数: 0)

V4降价的底气，根源在于V4本身的架构设计。

V4引入了混合稀疏留意力机制，包含两种留意力形式：CSA（紧缩稀疏留意力）对强关联的Token精读，HCA（重度紧缩留意力）对弱关联的内容疾速略过，不做全量计算，这样让长上下文的边际成本大幅下降。

V4的另一项关键设计，是FP4（4位浮点数）+FP8（8位浮点数）的混合精度。精度可以了解为芯片存储数字时用多少位来表示一个小数，位数越少，占用的显存越小，计算速度越快。FP4是目前最低的商用精度，每个参数只用4位表示，内存占用比FP8再减半。

(, 下载次数: 0)

DeepSeek-V4 和 DeepSeek-V3.2 的计算量和显存容量随上下文长度的变化

基于这样的创新架构，V4做到了100万Token的长上下文场景下，V4 Pro单Token推理的计算量只要上一代V3.2的27%，KV Cache占用降至10%。也就是说，异样的硬件资源，V4能处理的并发用户数量，实际上是上一代的数倍，而异样显存能同时维持的缓存条目多了十倍，计算成本的紧缩，为定价空间的释放奠定了基础。

由此便可了解，为什么这次降价幅度最狠的是“缓存命中价”。所谓“缓存命中”，是指大模型在处理央求时，假如上一次央求曾经处理过，模型可以把这部分的中间计算结果缓存上去，下次央求时直接复用，不用重新计算，自然也不用重新计费。

这个便是V4 KV Cache紧缩技术的直接变现。这项技术和定价，恰恰也正击中Agent类运用的痛点。

Agent典型的调用形式是：系统提示词很长（定义Agent的角色、才能边界、工具列表），这部分在每次央求里完全不变；用户输入和工具前往结果每次不同，但相对短。

V4用价格杠杆鼓励开发者把固定内容（系统提示词、工具定义、文档模板）放在央求头部，让缓存机制自动失效，缓存越波动，命中率越高，开发者付的钱越少，部署Agent的边际成本也就越低。

假如这套机制真的失效，意味着一个被高频调用的Agent产品，其调用成本只是每次真正变化的用户输入和模型输入，而这样的成本曾经接近普通对话。

那么，此前困扰产业的“昂贵的Token”可以重新找到解题方式。

(, 下载次数: 0)

未掀起大规模切换潮

落地仍在“观望期”

虽然发布即热度拉满，但在产业侧，V4并未立刻掀起大规模切换潮。

彭璐告诉记者，目前企业客户在模型选择上全体仍处于观望阶段，对成熟客户来说，一旦已有波动模型在运转，不会随便切换。企业通常需求完成适配、测试和成本验证，确认的确可以降本增效后，才会进入消费环境。

因此，无论是客户侧还是服务商侧，都需求阅历压力测试、消费验证以及基于客户语料的持续调优过程。

“至少在我们这边，V4这样的新模型要大规模在客户端落地，能够还需求1至2个月工夫。”他说，目前客户尚未出现大面积“必须切换到新一代模型”的趋向，“一些友商之间也有交流，至少从我们这里来看，还没有分明的迸发。”

在技术层面，彭璐以为，DeepSeek V4的出现对行业仍具有重要推进意义，“它在算法和专利上的一些创新曾经经过论文方式公开，这些成果对整个行业，包括多模态模型的发展，都会产生正向影响。”

(, 下载次数: 0)

当Token革命撞上算力的墙

另一个更理想的成绩是算力供给。

V4的另一重意义，在于其释放的“全栈国产落地”信号。过去算法公司与国产芯片厂商之间长期存在错位：模型厂商担心硬件生态拖累研发，芯片厂商则短少对最前沿的大模型停止深度调优。

随着V4的发布，国产算力厂商迅速跟进：华为、寒武纪、海光等相继宣布完成适配或支持。

不过，适配争议依然存在。

彭璐表示，公司外部曾经在推进相关部署，虽然目前仍处于业务起步阶段，但开发团队在实践落地过程中，并未反馈分明的技术妨碍，“至少在现阶段，没有听到什么成绩。”

对于外界关注的长上下文才能能否添加适配难度，彭璐以为全体可控，并未成为决议性门槛。在算力配置方面，当前行业的确存在对高端GPU配置的讨论，例如需求多台高功能卡停止支撑。“像B200、B300这类芯片，本身在设计时就对FP8+FP4做了支持，因此在适配上会更具优势。包括部分国产芯片在内，也在逐渐支持相似才能，全体生态正在完善中。”

不同硬件架构之间的适配体验仍能够存在差异。对于网络上关于适配难度的争议，彭璐以为，部分声响能够遭到市场利益驱动，“不同厂商、不同角色的立场不一样，对同一技术的解读也会有差异。”

归根结底，成绩仍指向下游制造才能。DeepSeek也在其发布通稿中坦言，受限于高端算力，Pro服务吞吐有限，估计下半年昇腾950超节点批量上市后，Pro价格会大幅下调。

对于国产算力的将来，彭璐表示看好，但短期仍受制于产能，“关键还是在下游制造才能，假如这些瓶颈不能处理，芯片供应依然会受限。”

排版／季嘉颖

图片／ MiniMax  DeepSeek  AIGC

来源／《IT时报》公众号vittimes

E N D

(, 下载次数: 0)

大家都在看

(, 下载次数: 0)

(, 下载次数: 0)

请加「星标」不错过我们

欢迎光临职贝云数AI新零售门户 (https://www.taojin168.com/cloud/)