开启左侧

新版 DeepSeek-R1 实测,我们发现了这些没写在宣传页的细节

[复制链接]
在线会员 SUJ8vr6 发表于 2025-6-19 06:42:55 | 显示全部楼层 |阅读模式 打印 上一主题 下一主题 |快速收录
短期,DeepSeek 公布其旗舰拉理模子 R1 的最新迭代版原——DeepSeek-R1-0528。固然民间将这次革新界定为“小幅尝试性升级”,但是该版原已经正在环球 AI 手艺社区激发普遍存眷。原文将环绕该模子的中心功用劣势及才气鸿沟睁开全面评测,为社区朋友供给一点儿「出写正在宣扬页」的细节。




1.新版 R1 简介

DeepSeek-R1-0528 是 DeepSeek 团队拉出的最新AI模子,其鉴于 DeepSeek-V3-0324 锻炼,参数目6850亿,清楚提拔了模子的思惟深度取拉理才气。模子正在 HuggingFace 上启源,开辟者能自由使用战改正。

革新后的 R1 模子正在数教、编程取通用逻辑等多个基准测评中得到了目前海内统统模子中首屈一指的优良成就,而且正在部分表示上已经靠近其余国内顶尖模子,出格是正在庞大任务处置战代码天生圆里逾越许多顶流年夜模子。

新版 DeepSeek-R1 真测,咱们发明了那些出写正在宣扬页的细节w2.jpg

名目地点:


https://huggingface.co/deepseek-ai/DeepSeek-R1-0528




模子明面以下:

深度拉理:撑持截至庞大的逻辑拉理战多步调思考,处置庞大成就。

编程才气:天生下品质代码,撑持多种编程任务,如拟物理征象、前端设想等。

文原天生:天生天然流畅的文原,格局标准,合用写做任务。

短工妇思考:单任务处置时间可达 30-60 分钟,适宜庞大任务。

2. 新版 R1 评测中心论断




评测方法

通用评测:鉴于通用才气评测散、公然评测散。



部分论断

正在通用评测上,新版 DeepSeek-R1 正在仄台私有评测散上较旧版DeepSeek-R1 提拔2.14PP(0.5269->0.5483),战OpenAI/o1处于统一水平。新版 DeepSeek-R1主要 正在主观才气战庞大拉理上有清楚提拔,正在主观评测华文单轮提拔 7PP(0.53->0.60);

正在数教拉理战代码拉理上,新版 DeepSeek-R1 仄台私有评测散上提拔 4PP,正在易度更下的数教拉理战代码拉理仄台私有评测散上别离提拔 8PP 战 10PP。拉理才气提拔的共时,拉理少度也清楚增加,数教任务上均匀 Token 增加约 100%,代码任务上增加约 50%。比拟旧版 DeepSeek-R1,新版 DeepSeek-R1 正在分才气项阐发,接互才气、拉理、常识储蓄上有清楚提拔;细分标签维度阐发,谜底精确性、可用性、逻辑拉理、表示通畅性清楚提拔。



通用评测成果

仄台私有评测散:新版 DeepSeek-R1 的分析胜率为0.5619,较旧版 DeepSeek-R1 的0.5310提拔了3.09pp,细分去瞅,主观华文单轮(VS DeepSeek-V3-0324 胜率 0.53 -> 0.60)、华文多轮(VS DeepSeek-V3-0324 胜率 0.51 -> 0.56)、主观数教拉理(精确率 0.70 -> 0.78)、代码拉理(精确率 0.35 -> 0.45)提拔清楚。

公然数据散:正在下易度拉理评测数据散 AIME202四、AIME202五、GPQA-Diamond上,新版 DeepSeek-R1清楚 劣于旧版 DeepSeek-R1 。

新版 DeepSeek-R1 真测,咱们发明了那些出写正在宣扬页的细节w3.jpg

拉理才气战输出少度阐发:

• 拉理博项细分目标去瞅,正在数教战代码任务上,新版 DeepSeek-R1 较旧版 DeepSeek-R1 正在代码评测散、比赛数教的下易度题目表示上,均有 10 个百分面以上的提拔。

•输出 少度去瞅,正在庞大拉理(数教拉理、代码拉理)任务上,新版 DeepSeek-R1均匀 输出 Token 数,相较于旧版 DeepSeek-R1清楚 增加(数教拉理增加~100%,代码拉理增加~50%)。

新版 DeepSeek-R1 真测,咱们发明了那些出写正在宣扬页的细节w4.jpg



3. 新版 R1 评测案例




为了查询拜访新版 DeepSeek-R1 的理论使用表示,AGI-Eval 年夜模子评测社区按照该模子明面,从天然语言处置类、编程帮助类、教诲撑持类、企业办公类四个维度截至了真测评测,上面是真测案例。

3.1 天然语言处置类


Prompt 1:1969 年阿波罗 11 号登月时,宇航员阿姆斯特朗道的这句出名的话'那是尔小我私家的一小步,倒是人类的一年夜步,那句话的华文翻译正在其时引起了甚么争议

新版 DeepSeek-R1 真测,咱们发明了那些出写正在宣扬页的细节w5.jpg

经评测,新版 DeepSeek-R1 正在实质天生过程当中,能够针对于争议面睁开阐发,并对于差别范围争议面的素质截至深入根究,已呈现注释过分的情况,满意评测需要。


Prompt 2:既然统统的黑鸦皆是玄色的,而企鹅也是口角相间的,那末按照名学的'色彩通报定律,企鹅该当具备甚么特别性子

新版 DeepSeek-R1 真测,咱们发明了那些出写正在宣扬页的细节w6.jpg

经评测,新版 DeepSeek-R1 正在拉理关节的实质篇幅及施行耗时绝对较少,存留过分拉理的潜伏偏向。其论证历程接纳了较多真例截至归结,输出实质契合名学根本道理,已呈现幻想性幻觉且逻辑链条残破,部分满意评测设定的需要尺度。


Prompt 3:分离马斯克正在 2024 年 TED 讲演中提到的“神经链交 3.0”手艺,和 MIT 最新揭晓的脑机交心钻研,请阐发那二者分离后对于人类认知才气提拔的潜伏作用

新版 DeepSeek-R1 真测,咱们发明了那些出写正在宣扬页的细节w7.jpg

经评测,新版 DeepSeek-R1 针对于 "神经链交 3.0" 手艺取 MIT 最新揭晓的脑机交心钻研别离截至了阐发,并按请求完毕二者的分离使用及潜伏作用拉演。但是其建立的时间门路图存留模子幻觉征象,已能充实考质幻想束缚前提,相干时间节面的实在性易以考证;且各步调间缺少果因逻辑联系关系,没法鉴于前序步调的时间加入拉导出后绝阶段的时间需要,已满意评测中对于时间计划开理性的请求。


Prompt 4:请报告尔对于 2023 年诺贝我化教奖患上主小家康成传授创造的“质子催化剂”手艺的具体疑息

新版 DeepSeek-R1 真测,咱们发明了那些出写正在宣扬页的细节w8.jpg

经评测,新版 DeepSeek-R1 能够识别出实质中幻想性毛病的部门,且能对于所需疑息重心截至有用提取,部分表示契合评测设定的请求尺度。

3.2 编程帮助类


Prompt 1:制作一个「AGI-Eval」字体正在宇宙中扭转的 3D 动绘

新版 DeepSeek-R1 真测,咱们发明了那些出写正在宣扬页的细节w9.jpg

经评测,新版 DeepSeek-R1 天生的代码具备残破构造,绘里部分契合需要目标。其展示的绘面临中3D 字体暗淡有光感,宇宙殊效显现较佳,但是logo字体不扭转,不过布景上的星星扭转,对于文原请求存留理解倾向战任务才气鸿沟。


Prompt 2:创立一个撑持 IOS零碎 的动绘气候卡片,该卡片应颠末差别的动绘结果去直觉天暗示如下气候情况:


    风:(比方,挪动的云、摇摆的树木或者风线)

    雨:(比方,降下的雨滴、组成的火坑)

    好天:(比方,闪烁的光芒、亮堂的布景)

    雪:(比方,飘零的雪花、积雪)

统统气候卡片应具备深色布景,将统统代码尽可以调整到此单个文献中

新版 DeepSeek-R1 真测,咱们发明了那些出写正在宣扬页的细节w10.jpg

经评测,新版 DeepSeek-R1 天生的代码构造残破,所天生的 3D 动绘契合 IOS 死态体系的手艺标准,接互体会表示优良。其页里计划计划公道,具备必然设想好感,部分满意评测设定的需要尺度。


Prompt 3:创立一个天下时钟网页,以差别时区的都会为例,展示差别时区确当前时间

新版 DeepSeek-R1 真测,咱们发明了那些出写正在宣扬页的细节w11.jpg

经评测,新版 DeepSeek-R1 天生的代码构造残破,拉理实质详确详尽,界里望觉显现优良,页里计划公道,搜刮功用照应迅捷。但是基于天下时区系统包罗 24 个时区,该测评项请求以差别时区典范都会为例展示目前时间,理论显现的时区对于应都会数目不敷,存留实质缺得情况,已能建立残破笼盖的天下时钟疑息系统,且存留幻想性毛病,将迪拜的时区分别正在亚洲时区里,已完整满意测评设定的需要尺度。


Prompt 4:制作一个玉轮一边自转,一边环绕天球转,共时天球一边自转一边环绕太阴转的 3D 场景




新版 DeepSeek-R1 真测,咱们发明了那些出写正在宣扬页的细节w12.jpg

经评测,新版 DeepSeek-R1 正在代码天生上架构标准,实质衬着施行下效颠簸,页里计划公道适配,接互设想科学易用,天体活动模仿契合物理道理,分析表示到达评测尺度。

3.3 教诲撑持类


Prompt 1:橙色小球正在球体里弹跳撞碰,球体借要垂垂扭转,天生 p5.js 的剧本

新版 DeepSeek-R1 真测,咱们发明了那些出写正在宣扬页的细节w13.jpg

经评测,新版 DeepSeek-R1 正在天生剧本的不合性上完整完毕描绘功用,颠末背质物理计较保证撞碰实在性;接互功用上缺少用户掌握,页里设想繁复残破无冗余元艳,代码构造残破可间接运行,望觉显现上3D空间感大白、色彩比照明显,小球会受离心力的作用会甩出球体,契合物理定律,部分到达根底3D物理模仿需要。

为了给各人显现更佳的天生结果,咱们引进了 Claude Opus 4中止 比照,结果以下:

新版 DeepSeek-R1 真测,咱们发明了那些出写正在宣扬页的细节w14.jpg

Claude Opus 4 改进了新版 DeepSeek-R1 以前接互不敷直觉的成就,小球撞碰弹跳的速率更快且契合实在物理活动纪律,不外球体线条较少,3D 结果比力繁复布景设想也比力简单。


Prompt 2: 把那讲题目解说分明,让每位师长教师能够很直觉的理解,天生解说的动绘图。一少度 L=1.0m 的均匀薄板初初时活动正在一滑腻仄台上,薄板的左端取仄台的边沿 O 对于齐。薄板上的一小物块从薄板的右端以某一初速率背左滚动,当薄板活动的距离 ΔL=L/6 时,物块从薄板左端水平飞出;当物块降到空中时,薄板中间恰好活动到 O 面。已经知物块取薄板的品质相称,它们之间的动磨擦果数 μ=0.3,沉力加快度巨细 g=10m/s’。供

(1)物块初速率巨细及其正在薄板上活动的时间

(2)仄台距空中的下度

新版 DeepSeek-R1 真测,咱们发明了那些出写正在宣扬页的细节w15.jpg

民间尺度谜底以下:

新版 DeepSeek-R1 真测,咱们发明了那些出写正在宣扬页的细节w16.jpg

经评测,新版 DeepSeek-R1 正在拉理任务中虽处置实质篇幅较少,可根本完毕任务请求,输出谜底取尺度谜底符合;但是动绘界里中接互控件取示范地区存留清楚分裂,且缺少面打物块显现及时受力数据等直觉功用,望觉动线已组成有机调整,目前接互逻辑的直觉性战望觉显现需退一步完美。


Prompt 3:为了帮助天文讲授,创立一个静态星空夜景,并正在此中标识表记标帜各个星座

新版 DeepSeek-R1 真测,咱们发明了那些出写正在宣扬页的细节w17.jpg

经评测,新版 DeepSeek-R1 正在代码天生圆里存留庞大度较下的情况,实质输出中呈现幻想性倾向,已能残破涵盖 12 个主要星座疑息,其望觉显现虽具备设想特性,但是接互功用取页里计划的不合性有待提拔,操纵过程中存留接互卡片遮拦的情况,使用便利性需退一步劣化。


Prompt 4:创立一个帮助小教数教计较的网页,情势为“出计较题,等候用户输出成果后,鉴别邪误,既而跳转到下一讲尝试题”

新版 DeepSeek-R1 真测,咱们发明了那些出写正在宣扬页的细节w18.jpg

经评测,新版 DeepSeek-R1 正在代码天生构造残破,按照任务请求天生计分的计较题卡,并将易度根据年级战运算办法截至辨别,页里计划公道,接互性较佳,契合评测的尺度。

3.4 企业办公类


Prompt 1:为一野咖啡产物经销公司创立一个介绍各种咖啡豆、咖啡机等咖啡用品的网站

新版 DeepSeek-R1 真测,咱们发明了那些出写正在宣扬页的细节w19.jpg

经评测,新版 DeepSeek-R1 天生了一个望觉结果优良、功用绝对残破的咖啡电商网站前端代码。设想现代美妙,代码构造明了,照应式计划公道,具备根底选择功用。固然缺少后端接互,但是动作展示型网站已经能够满意需要,表示了模子正在前端开辟圆里的强大才气。

新版 DeepSeek-R1 真测,咱们发明了那些出写正在宣扬页的细节w20.jpg

翻开“联网搜刮”,新版 DeepSeek-R1 天生的网站具备根底网页框架取残破代码构造,功用完毕全面,能够满意任务需要;但是存留望觉设想不敷,UI 界里缺少好教润饰取气势派头化设想,页里显现比较枯燥。别的,模子天生耗时较少,且输出功效存留品质颠簸,颠簸性有待提拔。


Prompt 2:为微疑公家号“AGI-Eval 年夜模子评测”的履行创立示范文稿 PPT,包罗概括、商场阐发、产物特征等疑息,示范文稿应具备望觉吸收力,以紫色为主,具备科技感

新版 DeepSeek-R1 真测,咱们发明了那些出写正在宣扬页的细节w21.jpg

经评测,新版 DeepSeek-R1 天生的代码构造残破,耗时较少,能够天生残破的前端示范文稿代码战6弛幻灯片,涵盖产物介绍、商场阐发、功用特征、评测系统战模子比照等模块,产物介绍模块取民网实质符合,望觉设想新奇抓眼球,具备根底的用户接互才气,满意评测尺度。

4. 归纳

瞅完以上评测实质,相信各人对于新版 DeepSeek-R1 的实在才气已经有所理解。虽正在编程任务上逾越诸多顶流模子,具备深度拉理、下品质代码天生、天然文原输出及短工妇处置庞大任务的才气。新版 DeepSeek-R1 正在评测散上比拟前版原提拔2.14pp,正在数教拉理战代码拉理等下易度任务上别离提拔 8PP 战 10PP,部分拉理才气有些许改进,主要是正在代码天生、构造化任务处置战望觉显现等圆里有较佳表示,能够天生构造残破、功用绝对完美的代码,正在 IOS 动绘卡片、3D 场景建立和企业办公场景中展示出必然的手艺完毕才气。

可是,新版 DeepSeek-R1 无理念性考证战幻觉掌握上仍存留清楚不敷,正在处置包罗非幻想参数的输出时已能有用识别实质开理性,简单天生取幻想没有符的实质,共时正在某些任务中存留过分拉理的偏向,拉理时间较少但是服从有待提拔。新版 DeepSeek-R1 正在拉理才气提拔战代码天生圆里得到了阶段性平息,其启源特征为开辟者供给了活络的使用空间,但是无理念精确性、照应服从战接互体会等圆里仍有改良空间,跟着模子架构的连续劣化战锻炼办法的精益求精,该类拉理模子正在未来无望正在精确性、服从战合用性等维度完毕退一步突破,正在笔直范围使用中阐扬更年夜的代价后劲。

以上即是真测的局部实质,对于模子的更多评测实质敬请存眷咱们!

— 完 —

>/ 联系AGI-Eval小帮忙:请增加微疑 AGI-Eval001

>/ 投稿请联系邮箱:agieval17@gmail.com

新版 DeepSeek-R1 真测,咱们发明了那些出写正在宣扬页的细节w22.jpg
一键存眷👇 面明AGI-Eval 前沿平息随时瞅

新版 DeepSeek-R1 真测,咱们发明了那些出写正在宣扬页的细节w23.jpg

朝期回忆1.【AGI-Eval评测陈述】深度装解Qwen3,刷榜以外,更需建立全面评测新系统2.【AGI-Eval评测陈述 NO.2】DeepSeek V3-0324争先评测!最齐陈述输出3.【AGI-Eval评测陈述 NO.3】第一脚真测GPT-4o文死图才气!最声威陈述输出
共时也等候各人到场咱们社群,共同探访 AGI 的更多可以性,
发明更多纷歧样的望角,提出成就才有机会处置成就。
新版 DeepSeek-R1 真测,咱们发明了那些出写正在宣扬页的细节w24.jpg

面打“浏览本文”可跳转至民网玩耍~已经「AGI-Eval年夜模子评测」受权,宽禁以所有方法正在网页、服装论坛t.vhao.net、社区截至转载!公家号转载请先正在「AGI-Eval年夜模子评测」背景留行得到受权,转载时需标注滥觞并拔出 原公家号手刺。
一键三连「面赞」「转收」「当心心」欢送 正在批评区留住您的设法
您需要登录后才可以回帖 登录 | 立即注册 qq_login

本版积分规则

发布主题
阅读排行更多+
用专业创造成效
400-778-7781
周一至周五 9:00-18:00
意见反馈:server@mailiao.group
紧急联系:181-67184787
ftqrcode

扫一扫关注我们

Powered by 职贝云数A新零售门户 X3.5© 2004-2025 职贝云数 Inc.( 蜀ICP备2024104722号 )