开启左侧

DeepSeek-V3.1 发布了

[复制链接]
在线会员 8PSoKs86y 发表于 2025-8-21 20:53:40 | 显示全部楼层 |阅读模式 打印 上一主题 下一主题 |快速收录
DeepSeek-V3.1来日诰日公布了。DeepSeek-V3.1的公布标记着其背Agent劣先的AI架构迈出枢纽一步,颠末混淆拉理架构、功用劣化及国产化适配,加强了正在智能体任务、东西挪用战国产软件死态中的合作力。这次升级不但提拔了手艺才气,也退一步促进了AI手艺正在笔直场景(如编程、搜刮)的深度使用,共时为国产芯片死态供给了枢纽撑持。
混淆拉理架构

单情势撑持,初度引进混淆拉理架构,撑持 “思考情势”取“非思考情势” 的自由切换,用户可按照任务需要挑选更活络的拉理方法。

颠末简单模子完毕二种情势,统筹服从取深度拉理才气,为Agent(智能体)场景供给更劣撑持。

功用提拔

思考服从劣化,比拟前代模子DeepSeek-R1-0528,DeepSeek-V3.1-Think情势能正在更长工妇内乱天生谜底,照应速率清楚提拔。

Agent才气增强

颠末Post-Training劣化,正在东西使用(如代码建设、号令止操纵)战智能体任务(如多步调搜刮、庞大拉理)中的表示年夜幅提拔。

正在代码建设(SWE)战末端任务(Terminal-Bench)尝试中,功用逾越前代模子。

手艺细节调解

参数粗度:接纳 UE8M0 FP8 Scale 参数粗度,针对于下一代国产芯片截至劣化设想。

分词汇器取Chat Template:对于分词汇器战对于话模板截至年夜幅调解,取前代DeepSeek-V3存留清楚差别。

API升级

情势切换:颠末 `deepseek-chat`(非思考情势)战 `deepseek-reasoner`(思考情势)交心供给单情势撑持,高低文少度扩大至 128K。

Function Calling增强:撑持 strict情势,保证输出严峻契合Schema界说,提拔东西挪用可靠性。

兼容Anthropic API格局:可无缝交进Claude Code框架,低落开辟者迁徙本钱。

国产化适配

参数粗度的调解(UE8M0 FP8)大白指背 国产芯片适配,表示对于华夏外乡软件死态的撑持,可以加快国产AI芯片的贸易化降天。
UE8M0 FP8 Scale




那是一种8位浮面数(FP8) 的保存格局(“Unsigned E8M0”)。它用于正在拉理(Inference)时下效天减载战计较模子权沉,是一种先辈的模子质化手艺。




年夜幅低落隐存占用,取保守的 FP16(16位)粗度比拟,FP8 能够将模子权沉所占的隐存远乎加半。那关于布置云云年夜范围的模子(685B 参数)相当主要,低落了软件门坎。提拔拉理速率,更小的内乱存占用战更下效的数据传输能够清楚进步拉理速率,低落提早。对于功用的作用微小,这类质化手艺颠末经心劣化,旨正在最年夜限定天连结模子原本的功用(粗度),正在尽年夜大都任务上用户感知没有赴任同。
#DeeSeek #GPT #AGI #UE8M0
您需要登录后才可以回帖 登录 | 立即注册 qq_login

本版积分规则

发布主题
阅读排行更多+
用专业创造成效
400-778-7781
周一至周五 9:00-18:00
意见反馈:server@mailiao.group
紧急联系:181-67184787
ftqrcode

扫一扫关注我们

Powered by 职贝云数A新零售门户 X3.5© 2004-2025 职贝云数 Inc.( 蜀ICP备2024104722号 )