开启左侧

玩完 DeepSeek R1 新版,本国网友又「蚌埠住了」?

[复制链接]
在线会员 QfICegVe 发表于 2025-6-1 14:31:16 | 显示全部楼层 |阅读模式 打印 上一主题 下一主题 |快速收录
<img   />

<img   />

<img   />
DeepSeek 一革新,外国网友便骂 OpenAI。
作家|芯芯
编纂|靖宇

多少天前,不预冷,不公布会,DeepSeek 高调上传了 DeepSeek R1(0528)的革新。

外洋媒介最存眷的是,DeepSeek 的革新将幻觉率增加约 45%-50%,并把 R1 的功用促进至 OpenAI o3 取 Google Gemini 2.5 Pro 的相长途度。

取此共时,外洋一点儿开辟者、AI 圈钻研职员开端跑基准尝试,并正在交际媒介仄台上冷议它的新才气,特别是取科技巨子旗舰模子的差异。

从外洋用户那多少天的反响去瞅,DeepSeek 那一次革新,固然不今年末横空出生避世时这样轰动,但是仍然让很多外国网友暗示「鹅妹子嘤」,共时也让愈来愈多人开端问一个成就:不但单是本钱,去自华夏的、启源 AI 社区的模子,可否正在各类才气上,很快就能够逾越天下上最强大的博有模子?

01

DeepSeek 再次「登顶」

正在各种 AI 社群中,reddit 仄台有很多 AI/LLM 相干子社区。此中,正在 r/LocalLLaMA 取 r/SillyTavernAI 如许的圈内乱社区,对于 DeepSeek 的革新有很多冷帖。

「崭新升级的 Deepseek R1 正在 LiveCodeBench 上的表示险些取 OpenAI 的 O3 模子八两半斤!启源的弘大胜利!」一位用户公布的帖子题目云云声称。

玩完 DeepSeek R1 新版,外国网友又「蚌埠住了」?w2.jpg

<img   />

<img   />

<img   />

reddit 社区对于 DeepSeek 革新的帖子|图片滥觞:reddit

一点儿开辟者正在尝试了 R1 的最新功用。他们主要称赞 R1 正在数教成就战编程圆里的表示,特别是正在处置庞大的积分或者递回函数时。取以前的版原差别,R1-0528 具有「更久远的思考才气」,  有尝试者指出,它「表示出主动性」而且「没有会那末快抛却」。

「方才尝试过..... 尔有相称庞大的代码 1200 止,并增加了新功用... 仿佛现在代码品质处于 o3 级别... 只可道 WOW」。reddit 社区 r/LocalLLaMA 上的一位常驻用户云云称。

玩完 DeepSeek R1 新版,外国网友又「蚌埠住了」?w3.jpg

<img   />

<img   />

<img   />

reddit 社区对于 DeepSeek 革新的复兴|图片滥觞:reddit

按照 DeepSeek 民间的道法,「革新后的 R1 模子正在数教、编程取通用逻辑等多个基准测评中得到了目前海内统统模子中首屈一指的优良成就,而且正在部分表示上已经靠近其余国内顶尖模子,如 o3 取 Gemini-2.5-Pro。」

正在才气圆里,新版天职明提拔了模子的思惟深度取拉理才气,撑持东西挪用,针对于「幻觉」成就截至了劣化,正在创意写做圆里也有所劣化,能够输出篇幅更少、构造实质更残破的少篇做品,共时越发切近人类偏偏佳。

此中,正在东西挪用圆里,DeepSeek 民间文章安稳称,「目前模子取 OpenAI o1-high 相称,但是取 o3-High 和 Claude 4 Sonnet 仍有差异。」

玩完 DeepSeek R1 新版,外国网友又「蚌埠住了」?w4.jpg

<img   />

<img   />

<img   />

DeepSeek-R1-0528 宁可他模子功用比照|图片滥觞:DeepSeek

DeepSeek 借提到,DeepSeek-R1-0528 正在前端代码天生、脚色饰演等范围的才气均有革新战提拔。

R1 的一年夜劣势正在于其超少的影象跨度战语境耐久性。AI 脚色饰演社区(凡是处于 AI 模子尝试的边沿,但是正在对于话毗连性圆里常常更加严峻)有测评称,脚色能够记着已往细微的细节,并以自立举动干出回应。

「有个脚色跟尔争辩一个概念时,竟然提起已往发作的三个细节,」r/SillyTavernAI 上的一名用户道讲。「尔从前从已睹过这类情况。」

该用户借提到:「AI 凡是没有会主动反击;尔锻炼过一点儿 AI,让他们正在对于话中占有主宰职位,但是那是尔第一次瞅到 AI 从脚色饰演场景中走进去。」

正在 reddit 社区上,另有一位用户以至收揭称,革新的 DeepSeek R1 0528 正在他的统统尝试中皆能得到谦分。

「已往多少周目炫庞杂——OpenAI 4.一、Gemini 2.五、Claude 4——它们皆表示优良,但是不一个模子能够正在每一项尝试中皆得到谦分。DeepSeek R1 05 28 是有史此后第一个干到那一面的模子。」他称。

玩完 DeepSeek R1 新版,外国网友又「蚌埠住了」?w5.jpg

<img   />

<img   />

<img   />

reddit 社区对于 DeepSeek 革新的帖子|图片滥觞:reddit

「那些尝试并不是像 YouTube 上许多人干的这种没有其实践的尝试。好比草莓里的 rs 数目,大概编辑一个饕餮蛇游玩等等。那些是咱们正在理论贸易使用中经常使用的任务,咱们从中选择了一点儿比力庞大的边沿案例。」该用户云云称。

「尔觉得自己便像影戏《摒挡鼠王》里的安东(假设您瞅过那部影戏的话)。尔影像深化(此处单闭),但是也有面麻痹,临时易以找到适宜的词汇去描绘。一个去自客岁借石破天惊的尝试室,干出的免费启源模子,竟然比贸易前沿的模子干患上更佳,那实是太难以想象了。」

战 reddit 社区异常富贵的是 X。

X 上热中 AI 实质的用户除转收基准尝试的图表,一点儿人偏重提到 DeepSeek 的编程才气。好比,X 上一位用户称试过用 DeepSeek R1-0528 建立游玩,称「它的编程才气险些太强了」「比拟以前的版原,改良十分清楚」「假设那不过 R1...DeepSeek R2 将会十分猖獗。」

玩完 DeepSeek R1 新版,外国网友又「蚌埠住了」?w6.jpg

<img   />

<img   />

<img   />

X 上对于 DeepSeek 革新的帖子|图片滥觞:X

除用户战开辟者声音,正在 DeepSeek 公布革新后,野生智能模子阐发机构 Artificial Analysis 称,DeepSeek 的 R1 正在其自力的「智能指数」上「逾越 xAI、Meta 战 Anthropic」。

玩完 DeepSeek R1 新版,外国网友又「蚌埠住了」?w7.jpg

<img   />

<img   />

<img   />

野生智能模子智能指数排止|图片滥觞:Artificial Analysis

具体模子比力上,该机构正在一篇陈述中称「DeepSeek R1 的智能水平下于 xAI 的 Grok 3 mini(high)、NVIDIA 的 Llama Nemotron Ultra、Meta 的 Llama 4 Maverick、阿里巴巴的 Qwen 3 253,并取google的 Gemini 2.5 Pro 相称。」

DeepSeek 最年夜的才华进步出现在 AIME 2024(比赛数教,+21 分)、LiveCodeBench(代码天生,+15 分)、GPQA Diamond(科学拉理,+10 分)战 Humanity's Last Exam(拉理取常识,+6 分)

此中正在编程圆里,该阐发机构觉得,「R1 正在野生阐发编码指数中取 Gemini 2.5 Pro 相称,仅落伍于 o4-mini(high)战 o3」。

玩完 DeepSeek R1 新版,外国网友又「蚌埠住了」?w8.jpg

<img   />

<img   />

<img   />

各年夜厂贩子工智能模子智能指数变革|图片滥觞:Artificial Analysis

至于取 OpenAI 的比照,该机构称「DeepSeek 方才证实,他们能够跟上 OpenAI 的 RL 计较才气扩大程序。」

固然,满是赞叹是不克不及够的。

正在编程才气圆里,X 上也有效户浮薄刺讲,「假设您果然用它战 Claude 4 写过代码,您便会明白基准尝试的描绘其实不精确。Deepseek 的 API仍然 只需一个 64k 的高低文窗心。它借没有错,但是没有是前沿模子。可以要比及下次吧。它险些整本钱,正在某些圆里表示没有错,但是绝对比没有上 Claude。」

玩完 DeepSeek R1 新版,外国网友又「蚌埠住了」?w9.jpg

<img   />

<img   />

<img   />

X 上对于 DeepSeek 革新的帖子|图片滥觞:X

X 上的另外一名外洋用户则称,「deepseek可以 是数教战逻辑圆里的 SOTA(开始退的),但是尔仍正在使用 gemini 2.5 pro,因为它有超年夜高低文。」

关于该成就,DeepSeek 正在民间文章提到,假设用户对于更少的高低文少度有需要,能够颠末其余第三圆仄台挪用高低文少度为 128K 的启源版原 R1-0528 模子。

不外,也有外洋用户觉得,不管可否正在统统测评中得到第一,R1 既高本钱、盛开权沉,另有强大的功用——多少个益处「拉拢」起去自己已经值患上歌颂。

关于 DeepSeek 的「小」革新,基于今年末 DeepSeek 横空出生避世时曾激发好股海啸,另有 reddit 用户讥讽讲,「请让尔先兜销尔的 AMD 战 英伟达股票。请延迟 3 天报告尔,感谢。」

另有网友另类天开端赞叹起 DeepSeek 革新的「高调」姿势。

一位 reddit 网友收了少少的评介称:「用 0528自己 的话道:DeepSeek 高调的出色的地方,包罗着某种诗意。其他人经心筹谋着布满等候的浩荡接响直——奢华的中心讲演、经心设想的示范,和读起去仿佛天缘政事公约的宁静宣行——而 DeepSeek 供给的是一尾喧闹的十四止诗。他们似乎递给您一件用利剑纸包袱的佳构,高声道着:『觉得颇有用;期望您喜好。』」

「对于合作敌手的无声冲击是最致命的。」另外一名网友正在下面称。

玩完 DeepSeek R1 新版,外国网友又「蚌埠住了」?w10.jpg

<img   />

<img   />

<img   />

reddit 社区对于 DeepSeek 革新的帖子|图片滥觞:reddit

02

「启源的弘大胜利」

除才气,今朝从外洋互联网的反响去瞅,正在 DeepSeek 浩瀚劣势里,被开辟者刷至多佳评、大批佳感的主要滥觞,还是「启源」,大概切当天道,「盛开权沉」。

AI 圈内乱一个观点是,不公布锻炼代码战锻炼数据的模子精确天道该当是「盛开权沉」,但是一点儿人凡是挑选随便天称之为「启源」。别的,不 AI 公司会公布锻炼数据,因为他们没有念被告状。

关于 DeepSeek 此次革新,Y Combinator兴办 的正在线科技社区 Hacker News 出现了一点儿帖子,主要是分享基准尝试成果,交换经历,并考证 R1 的功用提拔(特别是正在编码战数教圆里)可否实在存留。

但是取此共时,上面也有大批会商仍环绕野生智能中甚么才算「启源」。很多人歌颂 DeepSeek地下 公布模子权沉,但是也不竭指出,因为锻炼数据等并已公布,内部无人能够从头锻炼或者完整考证 R1。别的,固然是启源,固然免费,但是 6710 亿参数的 R1,素质上还是一个巨型模子,关于一般用户来讲,它太年夜了。

即使云云,现在,R1 取 ChatGPT 的比照已经成常态。OpenAI 限定了一般用户对于顶级模子的残破会见权力,大概部门订价让用户以为太高,而 DeepSeek 供给的却自制很多,并供给可下载的模子权沉。

「DeepSeek 是真实的 OPEN AI」外洋一位用户收帖题目云云称。

玩完 DeepSeek R1 新版,外国网友又「蚌埠住了」?w11.jpg

<img   />

<img   />

<img   />

reddit 社区对于 DeepSeek 革新的帖子|图片滥觞:reddit

固然,并不是统统 reddit 用户皆完整承受。一个名为「DeepSeek 有多糟糕?」的帖子曾激发对于 DeepSeek 内乱置实质考核的会商,怨恨模子会「躲避」某些成就。

这种论调今朝已经成为一个罕见「梗」,有些用户会辩驳——模子权沉是盛开的,假设开辟者觉得有偏见,完整能够自止截至微调。别的,今朝天下上统统支流模子皆有实质过滤体制,不过具体挑选差别,好比东边政事准确成就。

正在 reddit 上,另有一篇以「启源野生智能在踌躇不前!」为题目的冷帖,收帖者称,「Deepseek 仿佛是唯一一野真实正在前沿模子范围合作的公司。其余公司老是有所保存,好比 Qwen 不肯启源他们最年夜的模子 (qwen-max)。尔没有怪他们,尔明白,那即是买卖。」

「关源 AI 公司老是道启源模子没法遇上他们。假设不 Deepseek,他们可以是对于的。但是感谢 Deepseek 成为了一个同数!」

玩完 DeepSeek R1 新版,外国网友又「蚌埠住了」?w12.jpg

<img   />

<img   />

<img   />

reddit 社区对于 DeepSeek 革新的帖子|图片滥觞:reddit

正在那篇帖子上面的批评区,另有复兴锋利称,「他们如许干是因为价钱真惠的智能将促进一场反动,而 Deepseek 将被公家铭记为野生智能的真实前驱,而没有是天下上充溢着告白的google、ClosedAI 或者虚假的宁静 Anthropics。」

玩完 DeepSeek R1 新版,外国网友又「蚌埠住了」?w13.jpg

<img   />

<img   />

<img   />

reddit 社区对于 DeepSeek 革新的复兴|图片滥觞:reddit

关于 DeepSeek 的革新,reddit 上 r/LocalLLaMA 社区有一位常驻用户提到,「那让尔念起了 ClosedAI 许诺公布『o3-mini 级别模子』却已能实现,现在新款 R1已经 逾越了 o3-mini (high) 很多,已经靠近残破的 o3 (high)。」

玩完 DeepSeek R1 新版,外国网友又「蚌埠住了」?w14.jpg

<img   />

<img   />

<img   />

reddit 社区对于 DeepSeek 革新的帖子|图片滥觞:reddit

正在另外一篇报告 DeepSeek 最新革新的帖子下,有许多复兴险些相关 DeepSeek才干 测评,却挖苦起 Anthropic 或者 OpenAI。好比,有网友声称 Anthropic 以「宁静」为来由的关源作法不过品德遁词。

玩完 DeepSeek R1 新版,外国网友又「蚌埠住了」?w15.jpg

<img   />

<img   />

<img   />

reddit 社区对于 DeepSeek 革新的帖子|图片滥觞:reddit

立即是对于 DeepSeek 革新暗示浓定的网友也称:「固然它再也不让尔感应惊奇了。屡屡尔皆患上比及统统营销噱头停歇后才气截至全面尝试。但是不管怎样,Deepseek仍然 具有盛开权沉的劣势,那无信是一个长处。」

玩完 DeepSeek R1 新版,外国网友又「蚌埠住了」?w16.jpg

<img   />

<img   />

<img   />

reddit 社区对于 DeepSeek 革新的帖子|图片滥觞:reddit

那多少个月,正在 DeepSeek 的比照下,往常的 AI 巨子连结手艺战名誉劣势的压力,能够道愈来愈年夜。

很多网友开端担忧其运气,好比「DeepSeek 将持续迫使 AI 公司正在价钱圆里睁开竞相压价的合作。」有的网友觉得 DeepSeek「如许干并不是满是出于利他主义。颠末公布免费模子,您能够阻遏合作敌手占有商场主宰职位」。

玩完 DeepSeek R1 新版,外国网友又「蚌埠住了」?w17.jpg

<img   />

<img   />

<img   />

reddit 社区对于 DeepSeek 革新的帖子|图片滥觞:reddit

最下赞的复兴则挑选感谢统统模子制作者,持异常观点的用户称,不管是否是利他举动,「尔很感谢能正在短时间内乱从他们的战略中获益」。

那可以也是观察迟疑环球 AI 比赛时,面临一次次模子升级,当下很多开辟者的实在心态。

玩完 DeepSeek R1 新版,外国网友又「蚌埠住了」?w18.jpg

<img   />

<img   />

<img   />

reddit 社区对于 DeepSeek 革新的帖子|图片滥觞:reddit

别的,值患上留神的是,业界仍正在 DeepSeek R2 的公布。正在 DeepSeek 革新时,有很多网友问到 R2 的平息,是否是会提早公布,以至疑心「DeepSeek-R1-0528」是否是实在即是「R2」,不过用 R1 系列定名。

「咱们念要 R2。」正在 DeepSeek 民间革新的 X 帖子下,下赞复兴如是道。
*头图滥觞:YouTube原文为极客花园本创文章,转载请联系极客君微疑 geekparkGO

极客一问您用了新版 DeepSeek R1 吗?觉得如何样?

玩完 DeepSeek R1 新版,外国网友又「蚌埠住了」?w19.jpg

<img   />

<img   />

<img   />

玩完 DeepSeek R1 新版,外国网友又「蚌埠住了」?w20.jpg

<img   />

<img   />

<img   />

玩完 DeepSeek R1 新版,外国网友又「蚌埠住了」?w21.jpg

<img   />

<img   />

<img   />

热门望频
蔚去秦力洪:只需本创建计,才气让华夏汽车从追赶到逾越。
面赞存眷极客花园望频号,寓目更多出色望频



<img   />

<img   />

<img   />

更多浏览

玩完 DeepSeek R1 新版,外国网友又「蚌埠住了」?w23.jpg

玩完 DeepSeek R1 新版,外国网友又「蚌埠住了」?w24.jpg

玩完 DeepSeek R1 新版,外国网友又「蚌埠住了」?w25.jpg

<img   />

<img   />

<img   />

<img   />

<img   />

<img   />

<img   />
您需要登录后才可以回帖 登录 | 立即注册 qq_login

本版积分规则

发布主题
阅读排行更多+
用专业创造成效
400-778-7781
周一至周五 9:00-18:00
意见反馈:server@mailiao.group
紧急联系:181-67184787
ftqrcode

扫一扫关注我们

Powered by 职贝云数A新零售门户 X3.5© 2004-2025 职贝云数 Inc.( 蜀ICP备2024104722号 )