开启左侧

DeepSeek小迸发

[复制链接]
在线会员 SP0u 发表于 2025-8-22 01:00:50 | 显示全部楼层 |阅读模式 打印 上一主题 下一主题 |快速收录
DeepSeek民间方才突然颁布发表:咱们收最新版原模子DeepSeek-V3.1啦!

消息一出,一个小时正在X上的浏览冷度便到达了26万!

DeepSeek小爆发w2.jpg

据DeepSeek介绍,DeepSeek-V3.1是一款混淆型模子,撑持“思考情势”取“非思考情势”混淆运行,用户能够按照场景需要,活络切换拉理深度,服从战才气二脚抓。

受益于深度劣化的锻炼战略取年夜范围少文档扩大,DeepSeek-V3.1正在拉理速率、东西挪用智能、代码战数教任务等圆里均有清楚进步。

咱们先捋一下此次新版模子的多少年夜明面:

·混淆思考情势:颠末切换对于话模板,简单模子便可兼容思考取非思考二种情势。

·更智能的东西挪用:颠末后锻炼劣化,模子正在挪用东西战完毕Agent(智能体)任务圆里的表示清楚提拔。

·更下的思考服从:DeepSeek-V3.1-Think正在答复品质上可取R1-0528媲好,共时照应速率更快。

DeepSeek小爆发w3.jpg

民间搁出的尝试成果显现,V3.1-Think AIME 2025(好国数教聘请赛2025版)患上分88.4%,GPQA Diamond(下易度钻研死级常识问问数据散的Diamond子散)患上分80.1%,LiveCodeBench(及时编码基准)患上分74.8%,均劣于老模子R1-0528的表示:87.5%、81.0%、73.3%。

并且,邪以下图所示(纵轴是输出token数),V3.1-Think的输出tokens反而年夜幅削减。

也即是道:V3.1-Think相较于老模子R1-0528,使用更少的tokens,但是到达了类似或者略下的精确率,正在计较资本劣化上的劣势很清楚。

DeepSeek小爆发w4.jpg

正在硬件工程战Agent任务基准上的功用提拔圆里:

·SWE-Bench Verified,DeepSeek-V3.1患上分66.0%,近下于V3-0324的45.4%战R1-0528的44.6%,表白其正在处置庞大代码任务时更可靠。

·SWE-Bench Multilingual(多语言版原),DeepSeek-V3.1患上分54.5%,年夜幅争先V3-0324的29.3%战R1-0528的30.5%。分析其正在多语言撑持上有很年夜进步,可以颠末增加百般化锻炼数据完毕,使其更适宜环球开辟场景。

·Terminal-Bench(使用Terminus 1框架的基准,质化AI Gent正在末端(号令止)情况中完毕庞大任务的才气,如剧本施行、文献操纵或者体系接互,模仿实在号令止事情流),DeepSeek-V3.1患上分31.3%,劣于V3-0324的13.3%战R1-0528的5.7%,正在Agent框架下的服从提拔,适宜主动化运维或者DevOps使用。

DeepSeek小爆发w5.jpg

需要留神的是,DeepSeek V3.1的原次革新,中心正在于清楚增强了模子的智能体才气,特别是正在庞大拉理战东西链合作场景下的理论表示。

别的,DeepSeek-V3.1搜刮Agent、少高低文理解、幻想问问战东西使用等范围的功用也表示强势。

DeepSeek-V3.1(鉴于MoE架构,总参数671B,激活37B)正在年夜大都基准上清楚劣于R1-0528,正在搜刮Agent战少高低文任务上的均匀提拔约20-300%,特别正在东西使用(如xbench-DeepSearch)战幻想QA(如SimpleQA)中争先,那表示着它适宜建立AI Agent使用,如主动化搜刮或者代码帮助。

DeepSeek小爆发w6.jpg

比拟R1-0528(专一于拉理但是服从较高),DeepSeek-V3.1更重视均衡速率取品质,DeepSeek的“Agent时期” 邪式推启帷幕。

正在Huggingface上,DeepSeek开释出了更具体的评介成果。

鉴于民间给出的取前代的测评比较,DeepSeek-V3.1正在通例拉理战常识问问任务(如 MMLU-Redux 战 MMLU-Pro)上,部分表示颠簸提拔,非思考战思考情势下的分数均下于V3旧版,根本靠近止业顶尖年夜模子水平。

比方,正在 HLE(Humanity’s Last Exam,搜刮+Python 复开拉理)任务上,DeepSeek-V3.1完毕了 29.8% 的颠末率,劣于自野 R1-0528 版(24.8%),并靠近 GPT-五、Grok 4 等国内一线年夜模子。

DeepSeek小爆发w7.jpg

固然各年夜模子正在评测细节上存留必然差别,但是DeepSeek的表示仍具备说服力。

新版模子正在网页检索、复开搜刮战东西配合场景(BrowseComp、BrowseComp_zh、Humanity’s Last Exam Python+Search、SimpleQA)上有逾越式进步,华文网页搜刮战多模态复开拉理分数清楚逾越旧版原。正在 SWE-Bench Verified代码评测中,DeepSeek-V3.1以66.0%的成就年夜幅争先前代(44.6%),也取 Claude 4.一、Kimi K2等顶级模子连结统一程度。

正在Terminal Bench末端主动化尝试中,其患上分也略下于GPT-5战o3等出名竞品。

DeepSeek小爆发w8.jpg

取此共时,DeepSeek-V3.1正在代码天生战主动化评测(LiveCodeBench、Codeforces-Div一、Aider-Polyglot、SWE Verified、Terminal-bench)圆里,患上分也较前代清楚提拔,出格是正在智能体情势下,代码任务颠末率战主动化施行才气年夜幅增强。正在AIME战HMMT等初级数教拉理战比赛任务上,DeepSeek-V3.1的表示劣于前代产物,思考情势下解题胜利率年夜幅提拔。

不外动作通用对于话模子,V3.1 并已正在统统维度逾越前代产物——正在部门通例对于话战常识问问场景下,R1-0528仍然 具备必然合作力。

DeepSeek小爆发w9.jpg

正在具体的功用表示以外,DeepSeek公布新模子,必然会被中界密切存眷确当然是价钱。

此次,DeepSeek也不让各人失望。

DeepSeek小爆发w10.jpg

Input API Price(输出订价),分为二种情况:

·Cache Hit(慢存掷中):0.07美圆/百万tokens。

·Cache Miss(慢存已掷中):0.56美圆/百万tokens。

Output API Price(输出订价)为1.68美圆/百万tokens。

MenloVentures的危急投资人、前google搜刮团队成员Deedy也收拉大喊“鲸鱼返来了”。(那哥们正在X上有20万粉丝,妥妥的科技界年夜V。)

DeepSeek小爆发w11.jpg

除价钱知己以外,DeepSeek-V3.1借初度完毕了对于Anthropic API的本死兼容。

那表示着,用户能够像挪用Claude或者Anthropic死态的模子一致,将DeepSeek的散成退现有体系。不管是颠末Claude Code东西链仍是间接使用Anthropic民间SDK,开辟者只要设置API地点战稀钥,便可正在统统撑持Anthropic API的情况下,使用DeepSeek-V3.1供给的拉理战对于话才气。

DeepSeek小爆发w12.jpg

从今朝的反应去瞅,中界对于此次公布的反应仍是很佳的,固然它并不是“拳挨Grok四、足踏GPT-5”的霸王龙,但是它有大白的、明了的偏重面取劣势。

DeepSeek小爆发w13.jpg

更故意思的是,从二天前DeepSeek冷静收了V3.1-Base开端,网友已经再次惊讶于DeepSeek收模子的节奏之舒适、立场之高调。

DeepSeek小爆发w14.jpg

DeepSeek小爆发w15.jpg

正在其余模子公布常常先炒做规格战功用数据的时候,DeepSeek反其讲而止,间接搁出模子文献闪开收者立即下载尝试,而后再弥补细节。下效、开辟者友好。

DeepSeek小爆发w16.jpg

欢送正在批评区留行~
如需启利剑请减小编微疑:dongfangmark

DeepSeek小爆发w17.jpg

DeepSeek小爆发w18.jpg

DeepSeek小爆发w19.jpg

DeepSeek小爆发w20.jpg

DeepSeek小爆发w21.jpg

DeepSeek小爆发w22.jpg

您需要登录后才可以回帖 登录 | 立即注册 qq_login

本版积分规则

发布主题
阅读排行更多+
用专业创造成效
400-778-7781
周一至周五 9:00-18:00
意见反馈:server@mailiao.group
紧急联系:181-67184787
ftqrcode

扫一扫关注我们

Powered by 职贝云数A新零售门户 X3.5© 2004-2025 职贝云数 Inc.( 蜀ICP备2024104722号 )