职贝云数AI新零售门户
标题:
超越DeepSeek,剑指GPT-5!这次百度新模型底气何在?
[打印本页]
作者:
TKxT
时间:
16 小时前
标题:
超越DeepSeek,剑指GPT-5!这次百度新模型底气何在?
明天上午,北京。百度WAVE SUMMIT深度学习开发者大会的聚光灯下,百度CTO王海峰的声响沉稳而有力:“我们正式发布,文心大模型X1.1。”
台下两千多名开发者屏息凝神。大屏幕上,一行加粗的数据赫然在目:理想功才能提升34.8%,指令遵照才能提升12.5%,智能体才能提升9.6% 。
紧接着,更爆炸性的字眼出现:“在多项基准测试中超越DeepSeek-R1-0528”,“与GPT-5、Gemini 2.5 Pro效果基本持平”。
(, 下载次数: 0)
上传
点击文件名下载附件
会场瞬间沸腾。有人低声惊呼,有人疾速记录,有人则眉头紧锁,这口吻,是不是太大了?DeepSeek是当前国产开源模型的标杆,GPT-5更是全球顶尖的存在。百度,凭什么?
一、发布会现场
王海峰没有回避质疑。他站在台上,像一位耐烦的导师,揭开了X1.1的技术底气:迭代式混合强化学习训练框架。
“一方面,经过混合强化学习,同时提升通用义务和智能体义务的效果;另一方面,经过自蒸馏数据的迭代式消费及训练,不断提升模型全体效果。” 他解释道。
这听起来很技术,翻译成人话就是:X1.1不是死读书的“书呆子”,而是个“边干边学、越干越精”的实际派。它能像人类一样,在执行义务(比如写代码、处理客诉)的过程中,不断反思、总结、优化本人的行为形式,从而变得越来越聪明、越来越牢靠。
这种方法,不花哨、见效慢,却能表现一个厂商的基本功。要知道,模型越大、越复杂,调教难度就指数级上升。百度敢在这时分亮这组数据,是有点底气的。
现场演示环节,大屏幕演出示了X1.1处理一个复杂的创意写作义务:它不只能调用联网搜索工具精准查找材料,更能深度思索用户潜在的创意需求,最终生成一篇逻辑严密、文采斐然的文章 。这不再是简单的“信息搬运”,而是真正的“深度思索”。
二、超越DeepSeek?
“超越DeepSeek-R1-0528”,这是百度本次发布会最核心的宣传点之一 。这个对标非常聪明。
DeepSeek-R1是当前公认的国产最强开源模型之一,功能强悍,社区活跃。选择它作为超越对象,既能证明本人的实力,又能精准打击最大的竞争对手,还能博得开发者的好感,毕竟,谁不希望有更多选择呢?
(, 下载次数: 0)
上传
点击文件名下载附件
但我们需求冷静对待。搜索结果虽然普遍提及X1.1在“多个威望基准评测中”全体表现超越DeepSeek R1-0528 ,但并未公布详细的评测标准、测试集和详细分数。是哪些义务抢先?抢先多少?这些细节的缺失,让“超越”显得有些底气不足。
我的判别是:在特定场景和特定评测集上,X1.1的确能够完成了超越,尤其是在百度擅长的中文了解、理想性校验和工具调用方面。但在更广泛的通用才能、数学推理或代码才能上,两者能够是各有所长。
三、剑指GPT-5?
GPT-5作为具有博士级专业知识与多模态一致才能。百度此时抛出“效果基本持平”的说法,难免让人不测:
我个人更倾向于,百度把它这当成一种战略的姿态,而不是字面上理想结果。发布会从头大卫也没有公开的和GPT5比较的横评数据,也没有第三方测评确认。从研发节拍,和基础建设看,中国模型与最新国际旗舰仍存在间隔,但差距确真实迅速减少。
四、真正的底气
但是,假如仅仅把目光聚焦在X1.1模型本身,你就太小看百度了。它的真正底气,来自于一个坚不可摧的“生态铁三角”:
模型(X1.1): 功能微弱的“大脑”。框架(飞桨V3.2): 在大会现场同步发布的飞桨核心框架V3.2,是支撑这个大脑高效运转的“神经系统”,在大模型训练、硬件适配上片面晋级 。
(, 下载次数: 0)
上传
点击文件名下载附件
工具(文心快码3.5S等): 而文心快码3.5S,这个让百度外部45%新代码由AI生成的“神兵利器”,则是将AI才能转化为消费力的“双手”。虽然搜索结果未直接提及3.5S版本“26%”的准确率提升 ,但其支持多模态交互、自动搭建环境的才能,无疑大幅降低了开发门槛。
(, 下载次数: 0)
上传
点击文件名下载附件
这个铁三角,构成了从底层技术到下层运用的残缺闭环。开发者不再需求四处拼凑工具,只需在百度的生态里,就能获得从模型训练、部署到运用开发的一站式服务。2333万开发者、76万企业 的庞大生态,就是这个形式最好的背书。
五、落地为王:数字人GMV超罗永浩!
一切技术,最终都要回归商业本质。而百度这次可谓冷艳,罗永浩数字人直播,GMV超过罗永浩本人!
(, 下载次数: 0)
上传
点击文件名下载附件
根据报道,在6月15日的百度电商首秀中,罗永浩数字人直播近7小时,吸引了超1300万人次观看,最终GMV打破5500万元 。部分核心品类的销量,甚至超过了罗永浩5月真人直播的同期数据 。
想象一下那个画面:屏幕里,“罗永浩”和“朱萧木”两个数字人,不知疲倦地讲解着产品,表情生动,语调激昂。他们没有真人的疲惫,可以7x24小时待命;他们的“问答转化率”和“接待率”甚至更高 。这不再是科幻电影,而是正在发生的商业理想。
从能自动处理客诉的智能客服,到GMV破亿的数字人主播,再到辅助程序员写代码的文心快码,百度用一个个鲜活的案例证明:AI不是飘在天上的云,而是能落到地上、真金白银创造价值的雨。
这应该就是百度这次的底气!
(, 下载次数: 0)
上传
点击文件名下载附件
欢迎光临 职贝云数AI新零售门户 (https://www.taojin168.com/cloud/)
Powered by Discuz! X3.5