DeepSeek V4 Flash 编码跑分「反杀」自家旗舰,价格只要 Opus 的 1/71!开源模型性价比继续卷疯了

DDeEB0 · 发表于 3 天前

导读
DeepSeek V4 Flash 是一个只激活 13B 参数的「沉质级」模子。Codebuff 分离开创人 James Grugett 搁出的 BuffBench比照里，它排正在自野激活 49B 参数的 V4 Pro前面；按民间 API 订价合算，Flash 的混淆本钱约莫只需 Claude Opus 4.7 的 1/71。Grugett 用 "absolutely insane" 描绘那组成果，开辟者社区立刻环绕“自制模子能不克不及接收编码任务”吵了起去。13B 挨赢 49B，Codebuff开创人自己皆出料到

5 月 13 日，Codebuff 分离开创人 James Grugett（拉特 ID：@jahooma）收了一条闪开收者圈炸锅的拉文：

"DeepSeek v4Flashis absolutely insane. It costs almost nothing (~1/300th Opus), and yet performs among the best open source models. On our coding benchmark Flash does better(!) than Pro"

「DeepSeek V4 Flash 强患上离谱。本钱险些能够疏忽（约 Opus 的 1/300），但是功用已经跻身最强启源模子队列。正在咱们的编码基准上，Flash 的表示竟然超越了 Pro。」

DeepSeek V4 Flash 编码跑分「反杀」自野旗舰,价钱只需 Opus 的 1/71!启源模子性价比持续卷疯了w2.jpg

DeepSeek V4 Flash 编码跑分「反杀」自野旗舰,价钱只需 Opus 的 1/71!启源模子性价比持续卷疯了w2.jpg

▲ James Grugett 拉文截图：BuffBench 编码基准把 Flash 战 Pro 搁正在统一弛条形图里比照

那里要留神的是，Grugett 拉文里道的"1/300th Opus"指的是他正在理论编码任务中的体感本钱差别。按民间 API 订价算，Flash 取 Opus 4.7 的混淆本钱比约莫是 1:71（$0.42 vs $30.00 每一百万 token），仍然是数目级的碾压。

Grugett 给出的 BuffBench 截图里，Flash 排正在四个模子第一，Pro 排正在最初。截图不残破标出中心二个模子的称呼，以是它更像一条去自开辟者东西社区的晚期旌旗灯号，而没有是通用年夜模子才气定论；但是那已经脚以把一个成就拉到台前——

激活参数多了快要 4 倍，为何反而分高了？
价钱战挨到那个份上，敌手借如何跟？

先瞅 Flash 的订价终归有多狠：

模子	输出价钱（/百万 token）	输出价钱（/百万 token）	混淆总本钱
DeepSeek V4 Flash	$0.14	$0.28	$0.42
Grok 4.1 Fast	$0.20	$0.50	$0.70
MiniMax M2.7	$0.30	$1.20	$1.50
DeepSeek V4 Pro（扣头价）	$0.435	$0.87	$1.305
Claude Haiku 4.5	$1.00	$5.00	$6.00
GPT-5.4	$2.50	$15.00	$17.50
Claude Opus 4.7	$5.00	$25.00	$30.00
GPT-5.5	$5.00	$30.00	$35.00

Flash 的混淆本钱 $0.42，Opus 4.7 要 $30.00，GPT-5.5 要 $35.00。换算下来，跑一次 Opus 的钱够跑 71 次 Flash，跑一次 GPT-5.5 的钱够跑 83 次 Flash。

DeepSeek V4 Flash 编码跑分「反杀」自野旗舰,价钱只需 Opus 的 1/71!启源模子性价比持续卷疯了w3.jpg

DeepSeek V4 Flash 编码跑分「反杀」自野旗舰,价钱只需 Opus 的 1/71!启源模子性价比持续卷疯了w3.jpg

▲ DeepSeek 民间 API 订价页里截图

假设启了慢存掷中，Flash 的输出价钱间接失落到 $0.0028/百万 token——那个价钱根本即是没有要钱。

拉特用户 @KishanVavdara 的批评很到位：

"1/300th the price and beats Pro on coding. MoE doing exactly what it was designed to do. At some point the question stops being 'which model is best' and starts being 'why would you pay 300x more.'"

「价钱只需 1/300 借正在编码上挨赢了 Pro。MoE 架构搞的即是它该搞的事。到了某个节面，成就便从'哪一个模子最佳'酿成了'您为何要花 300 倍的钱'。」
开辟者已经正在用足投票

数据战价钱表是一回事，实在场景里开辟者如何选又是另外一回事。拉文批评区里，佳多少位已经给出了谜底。

用户 @byeung888 道：

"My engineers are given all three options: Opus, Pro, and Flash. They seem to use Flash so much more. Great value for money."

「咱们团队三个模子皆盛开了：Opus、Pro 战 Flash。工程师们清楚更偏偏佳 Flash，性价比确实下。」

用户 @unbug 道：

"DeepSeek v4 flash is so wild for agentic, works so great for computer use on windows pc"

「V4 Flash 干 agentic 任务太猛了，正在 Windows PC 上跑 computer use 体会极佳。」

用户 @Beethoven779 更间接：

"I am using both for coding and i feel flash is better than pro. I cannot explain why"

「二个模子尔皆正在用，体感上 Flash 写代码即是比 Pro 佳，但是尔道没有出为何。」

华文社区用户 @tangqingyue 的察看则更深一层：

"本钱落二个数目级以后用法会量变，从稳重挪用酿成批质灌，但是那共时表示着品质把控的窗心变窄了。"

当做原落到能够疏忽，用法自己便会发作量变。从"屡屡挪用皆要算账"酿成"先跑一百遍再道"——那对于 AI agent 的开辟范式作用可以比跑分自己更长远。
量信声异常很多：基准靠谱吗？少任务扛患上住吗？

跑分都雅，价钱自制，用户也道佳——但是阻挡的声音异常值患上认真看待。

用户 @EinNewton 的量信正在批评区激发至多共识：

"H妹妹 that actually means two possibilities: 1. your bench is not valid 2. some setting issue loll"

「那分析二种可以：1. 您的基准有成就 2. 跑的时候树立不合错误。」

Grugett自己对于此回应患上很坦诚：

"Could be that our bench is bad haha. But it's been remarkably calibrated so far for like a dozen model versions"

「可以确实是咱们的基准不可，哈哈。但是到今朝为行，它正在十多少个模子版原上的表示皆借蛮准的。」

那里有个枢纽布景：BuffBench 是 Codebuff 自野的评介框架，鉴于实在启源名目的 git co妹妹it 沉构任务，用 GPT-5 干裁判挨分。Grugett自己是 Codebuff 分离开创人。有效户（@jonnguyenmedia）间接问他是否是正在给自野自制模子挨告白、佳低落 Codebuff 的经营本钱。

这类长处联系关系患上晃正在明里上，但是也患上瞅 BuffBench 的办法论：它评介的是实在 repo 沉构才气，用三个并止 GPT-5 裁判与中位数，笼盖完毕度、代码品质、分析分三个维度。动作编码 agent 的评介东西，它有自己的代价——不过不克不及把它同等于"Flash 全面劣于 Pro"。

另外一个主要的量信维度去自少程任务。

用户 @S_Fadaeimanesh 道：

"wait flash beating pro is wild. what's the long-horizon picture though? short benches usually don't show where flash folds"

「Flash 挨赢 Pro确实超越预期。但是少线任务呢？短基准常常瞅没有出 Flash 正在那里会崩。」

用户 @srpanwar 有亲身领会：

"I have been kicking tires around V4 for heavy feature workload. It is beast for sure, but long context reasoning is still not on par with 5.5."

「尔用 V4 跑太重度功用开辟，确实很猛，但是少高低文拉理仍是比没有上 GPT-5.5。」

用户 @ApplyWiseAi 给了更具体的阈值：

"deepseek flash nails the speed cost ratio. outperforms pro on code but chains get messy past 10k tokens."

「Flash 正在速率战本钱上的均衡确实到位。编码上赢了 Pro，但是拉理链超越 1 万 token 后便开端紊乱。」

另有用户 @Rokas666 间接启喷：

"Whoever tried to build something serious with it knows it's not even close to Opus 4.7. It's actually a very stupid model that tangles up doing loops and not fixing or creating what was asked for."

「真实拿它干过名目的人皆明白，它战 Opus 4.7 好患上近。那模子碰到轮回便挨结，改没有了也写没有出您要的工具。」
Flash 的实在定位：编码性价比之王，但是有天花板

分析邪反二圆里的疑息，DeepSeek V4 Flash 的绘像实在已经比力明了了：

善于的场景：短到中等少度的编码任务、快速本型开辟、批质 agentic 挪用、对于本钱敏感的团队一样平常开辟。正在那些场景里，Flash 供给了近超价钱预期的功用。

没有善于的场景：少高低文拉理（超越 1 万 token 后表示降落）、庞大体系级建立、需要深度多轮拉理的任务。正在那些场景里，GPT-5.5 或者 Opus 4.7仍然是更稳的挑选。

从更年夜的图景瞅，Flash 此次跑分成果提醒的中心旌旗灯号是MoE（Mixture of Experts）架构正在拉理服从上的弘大后劲。284B 总参数里只激活 13B 就可以正在一定编码任务上挨赢 1.6T 总参数中激活 49B 的年老——那分析"参数多=功用强"的粗鲁等式在被突破。

VentureBeat 对于 DeepSeek V4 家属的评介值患上引用：

"DeepSeek does not need to win every leaderboard row to matter. If it can deliver near-frontier performance on many enterprise-relevant agent and reasoning tasks at roughly one-sixth to one-seventh the standard API cost of GPT-5.5 or Claude Opus 4.7, it still forces a major rethink of the economics of advanced AI deployment."

「DeepSeek 没有需要正在每止排止榜上皆赢。假设它能正在大批企业级 agent 战拉理任务上接出靠近前沿的表示，共时本钱只需 GPT-5.5 或者 Opus 4.7 的六分之一到七分之一，那便脚以迫使全部止业从头审阅初级 AI 布置的经济模子。」

最初一个值患上存眷的时间节面：V4 Pro 的 75% 扣头将正在 5 月 31 日到期，届时 Pro 的价钱将从今朝的 $1.305 跳回 $5.22（混淆本钱），间接翻四倍。而 Flash 久已宣布限时扣头——也即是道，二周后 Flash 战 Pro 之间的性价比边界借会退一步推年夜。

关于年夜大都编码场景来讲，谜底可以已经很大白了：先用 Flash 跑，跑没有动再上 Pro，Pro 弄大概再请 Opus。那条从自制到贵的梯度门路，可以才是 2026 年 AI 开辟的实在翻开方法。

— END —
— END —