开启左侧

DeepSeek-R2 「难产」缘由曝光

[复制链接]
在线会员 mInr 发表于 昨天 17:01 | 显示全部楼层 |阅读模式 打印 上一主题 下一主题 |快速收录
面打下圆卡片,存眷“新机械望觉”公家号

沉磅搞货,第一时间投递
一火 收自 凸非寺
质子位 |大众 号 QbitAI


齐网翘尾以盼的DeepSeek-R2,再次被曝推迟!

据The Information报导,因为DeepSeek CEO梁文锋不断对于R2的表示没有趁心,因而R2早早已能公布。

别的,他们借援引二位海内知恋人士的消息称,R2研收历程迟缓可以是因为缺少英伟达H20芯片。

要明白R1的锻炼合计消耗了3万块H20(海内特供版)、1万块H800战1万块H100。

以是正在H20急急的情况下,估量消耗更多算力资本的R2不免受到涉及。

幻想上,那没有是R2第一次被曝名目脱期了,最先能回溯到今年4月——

DeepSeek-R2 「易产」启事暴光w2.jpg
一览R2“易产”委曲

仔细一梳理,本来人们对于R2的等候,早正在V3新版原进去后便开端了。

客岁12月尾,DeepSeek公布了于今被望为“性价比代表”的DeepSeek-V3模子。到了今年3月24日,民间公布通告称对于V3截至了一次升级,新版原代号为V3-0324。

固然民间沉描浓写只道是“小版原升级”,但是许多人真测下来可一面也没有小。

因而人们开端测度,正在V3-0324已经得到清楚进步的情况下,是否是能够用它去锻炼R2模子。

那里需要弥补一下,DeepSeek主挨拉理的R1模子,恰是正在DeepSeek-V3-Base的根底上,分离热启用数据战多阶段锻炼过程建立的。

以是道,V3革新了,R2借会近吗?

DeepSeek-R2 「易产」启事暴光w3.jpg

而且分离R1是正在初代V3一个月以后公布,其时人们根据那一节奏猜测——

R2大要率将正在4月上线。(网友os:3月公布V3-0324,4月上R2,完善~)

刚刚加入4月,DeepSeek便收了一篇于拉理时Scaling Law的论文,引患上各人纷繁遐想是否是R2即刻要去了。

论文题目为《Inference-Time Scaling for Generalist Reward Modeling》,由DeepSeek战浑华年夜教配合提出。

他们中心提出了一种嚷干SPCT(Self-Principled Critique Tuning)的办法——

初度提出颠末正在线加强进修(RL)劣化绳尺战批驳天生,完毕拉理时扩大。

之以是要干这样一项钻研,是因为以前各人用嘉奖模子(Reward Model, RM)正在RL中为狂言语模子天生嘉奖旌旗灯号。但是现有的RM正在通用范围却表示出受限的情况,特别是正在面临庞大、百般化任务的时候。

DeepSeek-R2 「易产」启事暴光w4.jpg

不外论文公布后,中心不竭出啥消息。

曲到4月尾,坊间开端疯传一组R2的保守参数:1.2T万亿参数,5.2PB锻炼数据,下效力用华为芯片……一全部虚实易辨。

DeepSeek-R2 「易产」启事暴光w5.jpg

时间人不知;鬼不觉便加入了5月,R2依旧不涓滴民间消息。

5月中旬,DeepSeek公布了一篇有梁文锋切身签名的论文。

那一次,团队把DeepSeek-V3正在锻炼战拉理过程当中,怎样处置“软件瓶颈”的办法宣布了进去。

DeepSeek-R2 「易产」启事暴光w6.jpg

厥后又正在月结尾午节前,民间上线了新版R1——DeepSeek-R1-0528。

瞅名字您可以觉得是个小版原革新,但是理论上它正在LiveCodeBench上险些取OpenAI o3-high相称。

因为编程才气刁悍,其时一寡网友惊呵责:道实那实在即是R2吧!

DeepSeek-R2 「易产」启事暴光w7.jpg

但是曲到今朝为行,R2依旧已能真实战各人碰头。
网友反响明了

BTW,便正在The Information曝出提早消息后,Reddit相干帖子下最下赞网友暗示:

尔相信提早是值患上的。

DeepSeek-R2 「易产」启事暴光w8.jpg

究竟结果Llama 4 翻车正在前,“不情面愿成为下一个错误者”。

DeepSeek-R2 「易产」启事暴光w9.jpg

但是取此共时,也有人公道测度,R2好赖要等V4进去再道。

来由是,从民间目前公布的论文战一点儿版原革新去瞅,V3可以已经抵达限度了。

嗯,6月行将完毕,谁道7月没有值患上等候呢(doge)。

参照链交:
[1]https://www.reddit.com/r/LocalLLaMA/co妹妹ents/1ll6jo5/deepseek_r2_delayed/
[2]https://x.com/theinformation/status/1938337736622019044

原文仅干教术分享,若有侵权,请联系增文。
您需要登录后才可以回帖 登录 | 立即注册 qq_login

本版积分规则

发布主题
阅读排行更多+
用专业创造成效
400-778-7781
周一至周五 9:00-18:00
意见反馈:server@mailiao.group
紧急联系:181-67184787
ftqrcode

扫一扫关注我们

Powered by 职贝云数A新零售门户 X3.5© 2004-2025 职贝云数 Inc.( 蜀ICP备2024104722号 )