职贝云数AI新零售门户
标题:
DeepSeek用算法红利重塑AI定价权
[打印本页]
作者:
eQrFHY
时间:
3 天前
标题:
DeepSeek用算法红利重塑AI定价权
从“技术对决”到“性价比和平”|图源:AIGC
作者/ IT时报 贾天荣
编辑/ 王昕 孙妍
4月24日,DeepSeek正式发布并开源DeepSeek V4系列预览版本。间隔V3炸开行业水面的一年多后,这条“鲇鱼”再次入局。
彼时,DeepSeek把AI大模型的价格从“高高在上”拉到了“人人可用”——API调用成本仅为GPT-4的百分之一,功能却正面硬刚。这一印象至今仍是它最鲜明的标签。
但过去一年,牌桌变了。从AI Agent的迸发到百万级长文本的普及,Token的耗费量正呈指数级激增。当下的行业堕入了一个悖论:AI越来越好用,但也越来越贵。
在这个工夫点,DeepSeek V4试图回答的曾经不只是“更强”,而是如何让AI继续用得起。
(, 下载次数: 0)
上传
点击文件名下载附件
模型越来越像
性价比才是独一变量
当前大模型市场正进入转机期——模型才能差距疾速收敛。
“不管是开源模型还是闭源模型,都在互相蒸馏、互相对齐,结果就是才能越来越接近。”山海引擎COO彭璐告诉《IT时报》记者,如今模型之间的差异,更多曾经从过去的“60分和90分”,减少到“98分和99分”的纤细差别。
才能差距的收敛,直接改变了市场的选择逻辑。“为什么像MiniMax这类模型最近卖得很火?本质缘由是它曾经达到主流模型80%以上的才能,但成本能够连一半都不到。”在才能趋同的背景下,性价比成为企业决策的关键要素。
(, 下载次数: 0)
上传
点击文件名下载附件
基于这一判别,彭璐以为,大模型将来将逐渐从“技术产品”转变为“基础消费工具”,“就像发电机一样,不同技术道路(火电、核电)能够存在差异,但在一定效率区间内是可以接近的。”
因此,在不少业内人士看来,当前国产大模型的竞争重点,不应局限于模型才能本身的“对标与PK”,而是应尽快进入产业层面的规划。将来的关键在于算力和数据中心。相比公有化部署项目,面向全市场提供Token服务的形式空间更大,而前者往往定制化程度高、节拍较慢。
“假如把将来的数据中心看作‘电厂’,那么Token就是电力。”彭璐用类比解释称,将来企业购买的将不再是详细模型,而是按类型计价的Token才能,例如文本、图像、语音等,不同模型之间的差异会被弱化,最终构成相似电力市场的一致定价体系。
“模型会逐渐变成一种消费工具。”他表示,模型厂商之间的竞争,也将从“谁更先进”转向“谁的工具被更多场景采用”。
(, 下载次数: 0)
上传
点击文件名下载附件
AI变贵的真相
实践是AI用得多了
回到理想,一个悖论依然横亘内行业面前:AI分明越来越好用了,行业却在喊贵。成绩不在“单价”,而在“用量”。
假如说V3的意义是“把价格打上去”,那么V4所处的阶段,是价格战进入深水区——随着“小龙虾”在内的Agent大火,长上下文的普及,AI运用迸发带来的Token耗费指数级激增。
“往年以来Token需求至少呈10倍增长。”彭璐分析,目前部分客户的算力需求已出现分明紧张,GPU租赁市场价格也随之下跌,H100、H200租赁价格下跌20%~30%,零件价格涨幅甚至达到50%,二手设备价格比以前的新设备都要贵。
DeepSeek给出的解法,不是简单降价,而是重构成本结构。
V4发布第二天,DeepSeek官网更新API文档,宣布DeepSeek V4 Pro降价,开启2.5折限时优惠。调价后,DeepSeek V4 Pro每百万Tokens输入价格(缓存命中)为0.25元,输入价格(缓存未命中)为3元,输入价格为6元。此次优惠活动将持续至5月5日23点59分。
紧接着第二天(4月26日晚),DeepSeek宣布,全系API的输入缓存命中价,永世降至原有价格的1/10。最新调价后,DeepSeek V4 Flash每百万Tokens输入缓存命中价格为0.02元,DeepSeek V4 Pro为0.025元(已调价基础上的非常之一)。
(, 下载次数: 0)
上传
点击文件名下载附件
V4降价的底气,根源在于V4本身的架构设计。
V4引入了混合稀疏留意力机制,包含两种留意力形式:CSA(紧缩稀疏留意力)对强关联的Token精读,HCA(重度紧缩留意力)对弱关联的内容疾速略过,不做全量计算,这样让长上下文的边际成本大幅下降。
V4的另一项关键设计,是FP4(4位浮点数)+FP8(8位浮点数)的混合精度。精度可以了解为芯片存储数字时用多少位来表示一个小数,位数越少,占用的显存越小,计算速度越快。FP4是目前最低的商用精度,每个参数只用4位表示,内存占用比FP8再减半。
(, 下载次数: 0)
上传
点击文件名下载附件
DeepSeek-V4 和 DeepSeek-V3.2 的计算量和显存容量随上下文长度的变化
基于这样的创新架构,V4做到了100万Token的长上下文场景下,V4 Pro单Token推理的计算量只要上一代V3.2的27%,KV Cache占用降至10%。也就是说,异样的硬件资源,V4能处理的并发用户数量,实际上是上一代的数倍,而异样显存能同时维持的缓存条目多了十倍,计算成本的紧缩,为定价空间的释放奠定了基础。
由此便可了解,为什么这次降价幅度最狠的是“缓存命中价”。所谓“缓存命中”,是指大模型在处理央求时,假如上一次央求曾经处理过,模型可以把这部分的中间计算结果缓存上去,下次央求时直接复用,不用重新计算,自然也不用重新计费。
这个便是V4 KV Cache紧缩技术的直接变现。这项技术和定价,恰恰也正击中Agent类运用的痛点。
Agent典型的调用形式是:系统提示词很长(定义Agent的角色、才能边界、工具列表),这部分在每次央求里完全不变;用户输入和工具前往结果每次不同,但相对短。
V4用价格杠杆鼓励开发者把固定内容(系统提示词、工具定义、文档模板)放在央求头部,让缓存机制自动失效,缓存越波动,命中率越高,开发者付的钱越少,部署Agent的边际成本也就越低。
假如这套机制真的失效,意味着一个被高频调用的Agent产品,其调用成本只是每次真正变化的用户输入和模型输入,而这样的成本曾经接近普通对话。
那么,此前困扰产业的“昂贵的Token”可以重新找到解题方式。
(, 下载次数: 0)
上传
点击文件名下载附件
未掀起大规模切换潮
落地仍在“观望期”
虽然发布即热度拉满,但在产业侧,V4并未立刻掀起大规模切换潮。
彭璐告诉记者,目前企业客户在模型选择上全体仍处于观望阶段,对成熟客户来说,一旦已有波动模型在运转,不会随便切换。企业通常需求完成适配、测试和成本验证,确认的确可以降本增效后,才会进入消费环境。
因此,无论是客户侧还是服务商侧,都需求阅历压力测试、消费验证以及基于客户语料的持续调优过程。
“至少在我们这边,V4这样的新模型要大规模在客户端落地,能够还需求1至2个月工夫。”他说,目前客户尚未出现大面积“必须切换到新一代模型”的趋向,“一些友商之间也有交流,至少从我们这里来看,还没有分明的迸发。”
在技术层面,彭璐以为,DeepSeek V4的出现对行业仍具有重要推进意义,“它在算法和专利上的一些创新曾经经过论文方式公开,这些成果对整个行业,包括多模态模型的发展,都会产生正向影响。”
(, 下载次数: 0)
上传
点击文件名下载附件
当Token革命撞上算力的墙
另一个更理想的成绩是算力供给。
V4的另一重意义,在于其释放的“全栈国产落地”信号。过去算法公司与国产芯片厂商之间长期存在错位:模型厂商担心硬件生态拖累研发,芯片厂商则短少对最前沿的大模型停止深度调优。
随着V4的发布,国产算力厂商迅速跟进:华为、寒武纪、海光等相继宣布完成适配或支持。
不过,适配争议依然存在。
彭璐表示,公司外部曾经在推进相关部署,虽然目前仍处于业务起步阶段,但开发团队在实践落地过程中,并未反馈分明的技术妨碍,“至少在现阶段,没有听到什么成绩。”
对于外界关注的长上下文才能能否添加适配难度,彭璐以为全体可控,并未成为决议性门槛。在算力配置方面,当前行业的确存在对高端GPU配置的讨论,例如需求多台高功能卡停止支撑。“像B200、B300这类芯片,本身在设计时就对FP8+FP4做了支持,因此在适配上会更具优势。包括部分国产芯片在内,也在逐渐支持相似才能,全体生态正在完善中。”
不同硬件架构之间的适配体验仍能够存在差异。对于网络上关于适配难度的争议,彭璐以为,部分声响能够遭到市场利益驱动,“不同厂商、不同角色的立场不一样,对同一技术的解读也会有差异。”
归根结底,成绩仍指向下游制造才能。DeepSeek也在其发布通稿中坦言,受限于高端算力,Pro服务吞吐有限,估计下半年昇腾950超节点批量上市后,Pro价格会大幅下调。
对于国产算力的将来,彭璐表示看好,但短期仍受制于产能,“关键还是在下游制造才能,假如这些瓶颈不能处理,芯片供应依然会受限。”
排版/ 季嘉颖
图片/ MiniMax DeepSeek AIGC
来源/《IT时报》公众号vittimes
E N D
(, 下载次数: 0)
上传
点击文件名下载附件
大家都在看
(, 下载次数: 0)
上传
点击文件名下载附件
(, 下载次数: 0)
上传
点击文件名下载附件
请加「
星标
」不错过我们
欢迎光临 职贝云数AI新零售门户 (https://www.taojin168.com/cloud/)
Powered by Discuz! X3.5