职贝云数AI新零售门户

标题: 玩完 DeepSeek R1 新版,本国网友又「蚌埠住了」? [打印本页]

作者: QfICegVe    时间: 2025-6-1 14:31
标题: 玩完 DeepSeek R1 新版,本国网友又「蚌埠住了」?
<img   />

<img   />

<img   />
DeepSeek 一更新,本国网友就骂 OpenAI。
作者|芯芯
编辑|靖宇

几天前,没有预热,没有发布会,DeepSeek 低调上传了 DeepSeek R1(0528)的更新。

海外媒体最关注的是,DeepSeek 的更新将幻觉率增添约 45%-50%,并把 R1 的功能推进至 OpenAI o3 与 Google Gemini 2.5 Pro 的相远程度。

与此同时,海外一些开发者、AI 圈研讨人员末尾跑基准测试,并在社交媒体平台上热议它的新才能,尤其是与科技巨头旗舰模型的差距。

从海外用户这几天的反应来看,DeepSeek 这一次更新,虽然没有往年终横空出世时那样惊动,但依然让不少本国网友表示「鹅妹子嘤」,同时也让越来越多人末尾问一个成绩:不单单是成本,来自中国的、开源 AI 社区的模型,能否在各种才能上,很快就可以超越世界上最弱小的专有模型?

01

DeepSeek 再次「登顶」

在各类 AI 社群中,reddit 平台有不少 AI/LLM 相关子社区。其中,在 r/LocalLLaMA 与 r/SillyTavernAI 这样的圈内社区,对 DeepSeek 的更新有不少热帖。

「全新晋级的 Deepseek R1 在 LiveCodeBench 上的表现几乎与 OpenAI 的 O3 模型不相上下!开源的宏大成功!」一名用户发布的帖子标题如此宣称。

(, 下载次数: 0)

<img   />

<img   />

<img   />

reddit 社区关于 DeepSeek 更新的帖子|图片来源:reddit

一些开发者在测试了 R1 的最新功能。他们次要夸奖 R1 在数学成绩和编程方面的表现,尤其是在处理复杂的积分或递归函数时。与之前的版本不同,R1-0528 拥有「更长远的思索才能」,  有测试者指出,它「表现出自动性」并且「不会那么快放弃」。

「刚刚测试过..... 我有相当复杂的代码 1200 行,并添加了新功能... 似乎如今代码质量处于 o3 级别... 只能说 WOW」。reddit 社区 r/LocalLLaMA 上的一名常驻用户如此称。

(, 下载次数: 0)

<img   />

<img   />

<img   />

reddit 社区关于 DeepSeek 更新的回复|图片来源:reddit

根据 DeepSeek 官方的说法,「更新后的 R1 模型在数学、编程与通用逻辑等多个基准测评中获得了当前国内一切模型中数一数二的优秀成绩,并且在全体表现上已接近其他国际顶尖模型,如 o3 与 Gemini-2.5-Pro。」

在才能方面,新版本分明提升了模型的思想深度与推理才能,支持工具调用,针对「幻觉」成绩停止了优化,在创意写作方面也有所优化,可以输入篇幅更长、结构内容更残缺的长篇作品,同时愈加贴近人类偏好。

其中,在工具调用方面,DeepSeek 官方文章安然称,「当前模型与 OpenAI o1-high 相当,但与 o3-High 以及 Claude 4 Sonnet 仍有差距。」

(, 下载次数: 0)

<img   />

<img   />

<img   />

DeepSeek-R1-0528 与其他模型功能对比|图片来源:DeepSeek

DeepSeek 还提到,DeepSeek-R1-0528 在前端代码生成、角色扮演等范畴的才能均有更新和提升。

R1 的一大优势在于其超长的记忆跨度和语境持久性。AI 角色扮演社区(通常处于 AI 模型测试的边缘,但在对话连接性方面往往更为严厉)有测评称,角色可以记住过去纤细的细节,并以自主行为做出回应。

「有个角色跟我争论一个观点时,居然提起过去发生的三个细节,」r/SillyTavernAI 上的一位用户说道。「我以前从未见过这种状况。」

该用户还提到:「AI 通常不会自动出击;我训练过一些 AI,让他们在对话中占据主导地位,但这是我第一次看到 AI 从角色扮演场景中走出来。」

在 reddit 社区上,还有一名用户甚至发贴称,更新的 DeepSeek R1 0528 在他的一切测试中都能获得满分。

「过去几周眼花纷乱——OpenAI 4.1、Gemini 2.5、Claude 4——它们都表现优秀,但没有一个模型可以在每项测试中都获得满分。DeepSeek R1 05 28 是有史以来第一个做到这一点的模型。」他称。

(, 下载次数: 0)

<img   />

<img   />

<img   />

reddit 社区关于 DeepSeek 更新的帖子|图片来源:reddit

「这些测试并非像 YouTube 上很多人做的那种不实在践的测试。比如草莓里的 rs 数量,或者编写一个贪吃蛇游戏等等。这些是我们在实践商业运用中常常运用的义务,我们从中挑选了一些比较复杂的边缘案例。」该用户如此称。

「我感觉本人就像电影《料理鼠王》里的安东(假如你看过这部电影的话)。我印象深入(此处双关),但也有点麻木,一时难以找到合适的词来描画。一个来自去年还默默无闻的实验室,做出的收费开源模型,居然比商业前沿的模型做得更好,这真是太不可思议了。」

和 reddit 社区异样繁华的是 X。

X 上热衷 AI 内容的用户除了转发基准测试的图表,一些人着重提到 DeepSeek 的编程才能。比如,X 上一名用户称试过用 DeepSeek R1-0528 构建游戏,称「它的编程才能几乎太强了」「相比之前的版本,改进非常分明」「假如这只是 R1...DeepSeek R2 将会非常疯狂。」

(, 下载次数: 0)

<img   />

<img   />

<img   />

X 上关于 DeepSeek 更新的帖子|图片来源:X

除了用户和开发者声响,在 DeepSeek 发布更新后,人工智能模型分析机构 Artificial Analysis 称,DeepSeek 的 R1 在其独立的「智能指数」上「超越 xAI、Meta 和 Anthropic」。

(, 下载次数: 0)

<img   />

<img   />

<img   />

人工智能模型智能指数排行|图片来源:Artificial Analysis

详细模型比较上,该机构在一篇报告中称「DeepSeek R1 的智能程度高于 xAI 的 Grok 3 mini(high)、NVIDIA 的 Llama Nemotron Ultra、Meta 的 Llama 4 Maverick、阿里巴巴的 Qwen 3 253,并与谷歌的 Gemini 2.5 Pro 相当。」

DeepSeek 最大的智力提高出如今 AIME 2024(竞赛数学,+21 分)、LiveCodeBench(代码生成,+15 分)、GPQA Diamond(迷信推理,+10 分)和 Humanity's Last Exam(推理与知识,+6 分)

其中在编程方面,该分析机构以为,「R1 在人工分析编码指数中与 Gemini 2.5 Pro 相当,仅落后于 o4-mini(high)和 o3」。

(, 下载次数: 0)

<img   />

<img   />

<img   />

各大厂商人工智能模型智能指数变化|图片来源:Artificial Analysis

至于与 OpenAI 的对比,该机构称「DeepSeek 刚刚证明,他们可以跟上 OpenAI 的 RL 计算才能扩展步伐。」

当然,全是赞誉是不能够的。

在编程才能方面,X 上也有用户挑刺道,「假如你真的用它和 Claude 4 写过代码,你就会知道基准测试的描画并不准确。Deepseek 的 API 依然只要一个 64k 的上下文窗口。它还不错,但不是前沿模型。能够要等到下次吧。它几乎零成本,在某些方面表现不错,但相对比不上 Claude。」

(, 下载次数: 0)

<img   />

<img   />

<img   />

X 上关于 DeepSeek 更新的帖子|图片来源:X

X 上的另一名海外用户则称,「deepseek 能够是数学和逻辑方面的 SOTA(最先进的),但我仍在运用 gemini 2.5 pro,由于它有超大上下文。」

对于该成绩,DeepSeek 在官方文章提到,假如用户对更长的上下文长度有需求,可以经过其他第三方平台调用上下文长度为 128K 的开源版本 R1-0528 模型。

不过,也有海外用户以为,无论能否在一切测评中获得第一,R1 既低成本、开放权重,还有弱小的功能——几个好处「组合」起来本身已值得称赞。

对于 DeepSeek 的「小」更新,鉴于往年终 DeepSeek 横空出世时曾引发美股海啸,还有 reddit 用户调侃道,「请让我先兜售我的 AMD 和 英伟达股票。请提早 3 天告诉我,谢谢。」

还有网友另类地末尾赞誉起 DeepSeek 更新的「低调」姿态。

一名 reddit 网友发了长长的评价称:「用 0528 本人的话说:DeepSeek 低调的杰出之处,包含着某种诗意。其别人精心策划着充满等待的浩大交响曲——豪华的主题演讲、精心设计的演示,以及读起来好像地缘政治条约的安全宣言——而 DeepSeek 提供的是一首静谧的十四行诗。他们仿佛递给你一件用白纸包裹的杰作,低声说着:『感觉很有用;希望你喜欢。』」

「对竞争对手的无声打击是最致命的。」另一名网友在底下称。

(, 下载次数: 0)

<img   />

<img   />

<img   />

reddit 社区关于 DeepSeek 更新的帖子|图片来源:reddit

02

「开源的宏大成功」

除了才能,目前从海外互联网的反应来看,在 DeepSeek 众多优势里,被开发者刷最多好评、大量好感的重要来源,仍是「开源」,或者确切地说,「开放权重」。

AI 圈内一个看法是,没有发布训练代码和训练数据的模型准确地说应该是「开放权重」,但一些人通常选择随意地称之为「开源」。另外,没有 AI 公司会发布训练数据,由于他们不想被起诉。

对于 DeepSeek 这次更新,Y Combinator 创办的在线科技社区 Hacker News 涌现了一些帖子,次要是分享基准测试结果,交流阅历,并验证 R1 的功能提升(尤其是在编码和数学方面)能否真实存在。

但与此同时,下面也有大量讨论仍围绕人工智能中什么才算「开源」。许多人称赞 DeepSeek 公开发布模型权重,但也不断指出,由于训练数据等并未发布,外部无人可以重新训练或完全验证 R1。另外,虽然是开源,虽然收费,但 6710 亿参数的 R1,本质上仍是一个巨型模型,对于普通用户来说,它太大了。

即便如此,如今,R1 与 ChatGPT 的对比已成常态。OpenAI 限制了普通用户对顶级模型的残缺访问权限,或者部分定价让用户觉得过高,而 DeepSeek 提供的却便宜不少,并提供可下载的模型权重。

「DeepSeek 是真正的 OPEN AI」海外一名用户发帖标题如此称。

(, 下载次数: 0)

<img   />

<img   />

<img   />

reddit 社区关于 DeepSeek 更新的帖子|图片来源:reddit

当然,并非一切 reddit 用户都完全接受。一个名为「DeepSeek 有多蹩脚?」的帖子曾引发关于 DeepSeek 内置内容审核的讨论,不满模型会「回避」某些成绩。

这类论调目前曾经成为一个常见「梗」,有些用户会反驳——模型权重是开放的,假如开发者以为有成见,完全可以自行停止微调。另外,目前世界上一切主流模型都有内容过滤机制,只是详细选择不同,比如东方政治正确成绩。

在 reddit 上,还有一篇以「开源人工智能正在迎头赶上!」为标题的热帖,发帖者称,「Deepseek 似乎是唯逐一家真正在前沿模型范畴竞争的公司。其他公司总是有所保留,比如 Qwen 不愿开源他们最大的模型 (qwen-max)。我不怪他们,我知道,这就是生意。」

「闭源 AI 公司总是说开源模型无法赶上他们。假如没有 Deepseek,他们能够是对的。但感激 Deepseek 成了一个异数!」

(, 下载次数: 0)

<img   />

<img   />

<img   />

reddit 社区关于 DeepSeek 更新的帖子|图片来源:reddit

在这篇帖子下面的评论区,还有回复尖锐称,「他们这样做是由于价格实惠的智能将推进一场革命,而 Deepseek 将被公众铭刻为人工智能的真正先驱,而不是世界上充斥着广告的谷歌、ClosedAI 或虚伪的安全 Anthropics。」

(, 下载次数: 0)

<img   />

<img   />

<img   />

reddit 社区关于 DeepSeek 更新的回复|图片来源:reddit

对于 DeepSeek 的更新,reddit 上 r/LocalLLaMA 社区有一名常驻用户提到,「这让我想起了 ClosedAI 承诺发布『o3-mini 级别模型』却未能兑现,如今新款 R1 曾经超越了 o3-mini (high) 不少,曾经接近残缺的 o3 (high)。」

(, 下载次数: 0)

<img   />

<img   />

<img   />

reddit 社区关于 DeepSeek 更新的帖子|图片来源:reddit

在另一篇告诉 DeepSeek 最新更新的帖子下,有很多回复几乎有关 DeepSeek 才能测评,却讽刺起 Anthropic 或 OpenAI。比如,有网友宣称 Anthropic 以「安全」为理由的闭源做法只是道德托词。

(, 下载次数: 0)

<img   />

<img   />

<img   />

reddit 社区关于 DeepSeek 更新的帖子|图片来源:reddit

即时是对 DeepSeek 更新表示淡定的网友也称:「虽然它不再让我感到诧异了。每次我都得等到一切营销噱头停息后才能停止片面测试。但无论如何,Deepseek 依然拥有开放权重的优势,这无疑是一个优点。」

(, 下载次数: 0)

<img   />

<img   />

<img   />

reddit 社区关于 DeepSeek 更新的帖子|图片来源:reddit

这几个月,在 DeepSeek 的对比下,以往的 AI 巨头保持技术和声誉优势的压力,可以说越来越大。

不少网友末尾担心其命运,比如「DeepSeek 将继续迫使 AI 公司在价格方面展开竞相压价的竞争。」有的网友以为 DeepSeek「这样做并非全是出于利他主义。经过发布收费模型,你可以阻止竞争对手占据市场主导地位」。

(, 下载次数: 0)

<img   />

<img   />

<img   />

reddit 社区关于 DeepSeek 更新的帖子|图片来源:reddit

最高赞的回复则选择感激一切模型制造者,持异样看法的用户称,无论是不是利他行为,「我很感激能在短期内从他们的策略中获益」。

这能够也是旁观全球 AI 竞赛时,面对一次次模型晋级,当下不少开发者的真实心态。

(, 下载次数: 0)

<img   />

<img   />

<img   />

reddit 社区关于 DeepSeek 更新的帖子|图片来源:reddit

另外,值得留意的是,业界仍在 DeepSeek R2 的发布。在 DeepSeek 更新时,有不少网友问到 R2 的停顿,是不是会延迟发布,甚至怀疑「DeepSeek-R1-0528」是不是其实就是「R2」,只是用 R1 系列命名。

「我们想要 R2。」在 DeepSeek 官方更新的 X 帖子下,高赞回复如是说。
*头图来源:YouTube本文为极客公园原创文章,转载请联络极客君微信 geekparkGO

极客一问你用了新版 DeepSeek R1 吗?感觉怎样样?

(, 下载次数: 0)

<img   />

<img   />

<img   />

(, 下载次数: 0)

<img   />

<img   />

<img   />

(, 下载次数: 0)

<img   />

<img   />

<img   />

热点视频
蔚来秦力洪:只要原创设计,才能让中国汽车从追逐到超越。
点赞关注极客公园视频号,观看更多精彩视频



<img   />

<img   />

<img   />

更多阅读

(, 下载次数: 0)

(, 下载次数: 0)

(, 下载次数: 0)

<img   />

<img   />

<img   />

<img   />

<img   />

<img   />

<img   />




欢迎光临 职贝云数AI新零售门户 (https://www.taojin168.com/cloud/) Powered by Discuz! X3.5