职贝云数AI新零售门户
标题:
DeepSeek 模型晋级,这次会自我PUA了
[打印本页]
作者:
0qCf
时间:
前天 13:35
标题:
DeepSeek 模型晋级,这次会自我PUA了
在 AI 圈看久了各种功能榜,你会发现一个奇异但普遍的现象:
大家只在乎分数,没人太在乎模型到底是怎样做出来的,以及其推导思索的过程,就算它半路跳步、前后矛盾,只需答案对,也会选择性忽略,放到 X 平台晒分时照样一片叫好。
(, 下载次数: 0)
上传
点击文件名下载附件
这次 DeepSeekMath-V2 出来,气质完全不一样,浑身上下一股数学王子秦教师“”的滋味。
(, 下载次数: 0)
上传
点击文件名下载附件
它不只成绩好,同时还拥有了一个新的才能:能本人管(pua)本人。
(, 下载次数: 0)
上传
点击文件名下载附件
DeepSeek 团队这回分明是想处理模型一个老缺点。
以前的数学才能,说是推理,其实更像是给你看看模型怎样思索的,然后你就发现模型:
假如能靠跳步省工夫,那就跳。
你拿它做定理证明,它更多时分能让你怀疑人生。
(, 下载次数: 0)
上传
点击文件名下载附件
所以 DeepSeek 干脆搞了一个验证器,模型写证明,验证器就挑刺。
挑完让模型本人改,改不好继续挑。
非常具有璃月特征,但效果的确粗暴有效。
模型写的推导链条不够严谨?删!
中间忽然发散?打回重写!
缺步骤?补!
逻辑对不上?全盘重来。
(, 下载次数: 0)
上传
点击文件名下载附件
最关键的是,它不是人工挑刺,而是让模型面对一个比本人更狠的“AI 教师”。验证不过的证明,会自动被搜集成高难训练样本,再继续喂给验证器。验证器越来越挑剔,模型也被逼着越来越细致。
整套循环就是一个字:鞭策(狠狠地PUA!)。
(, 下载次数: 0)
上传
点击文件名下载附件
ProofBench 上它排得不高也正常,这基准测的是“像不像人写证明”,而 DeepSeek 这回目的根本不是模拟人,是让模型能把本人逼进一个逻辑闭环里,不靠人类兜底。
(, 下载次数: 0)
上传
点击文件名下载附件
真正吓人的是实战数学竞赛的变化。
(, 下载次数: 0)
上传
点击文件名下载附件
IMO 五题,CMO 五题,Putnam 118分。
以前模型刷题,有时分更像是搜索到套路,查到答案,或者依赖已见过的方式,如今它靠的是一个本人检查本人的过程。
(, 下载次数: 0)
上传
点击文件名下载附件
这次的亮点不是分数,是它能做到:
写完一段推理后反过来挑本人的缺点,发现推导不稳能自动回去修步骤。
遇到无法确定的结论时会自我质疑,而不是瞎赌一个,最后面对用户的怒火时,偷偷嘀咕一声:我操,用户怒了。
(, 下载次数: 0)
上传
点击文件名下载附件
这就是这次晋级真正的价值:
模型第一次具有了“我不能糊弄过去”的看法。
你要知道,AI 数学里最大的成绩,不是不会算,而是不会怀疑本人。人类数学家的弱小,在于那种天分的敏感:感觉哪里不对。
而 LLM 最缺的就是这一点,DeepSeekMath-V2 的自验证机制,就是在给模型打这种“敏感度补丁”。
(, 下载次数: 0)
上传
点击文件名下载附件
它末尾把本人的输入当成对象,而不是结果。
它末尾学会质疑,而不是跳过。
它末尾知道推理链条比最终答案更重要。
数学 AI 的路,能够第一次从“刷题机器人”拐向“能处理没有答案的成绩”的方向,长期看,这种自我鞭策才能比任何一次竞赛金牌都可怕得多。
你无法靠奖励分数训练模型去证一个还没被人类证明的猜想,但你可以训练它学会检查逻辑、平衡推理、审查本身破绽,这才是它将来无机会碰未知成绩的真正终点。
DeepSeekMath-V2 这次最大的变化,其实不是所谓的“推导才能”更强,而是末尾对本人下狠手,会自我质疑改进了,“推导才能”只是其拥有此才能后带来的Buff。
它不只输入结论,还会像个偏执的研讨生一样,把本人的推理重新扫一遍、挑缺点、重写,再挑缺点、再重写。
(, 下载次数: 0)
上传
点击文件名下载附件
这套“自证循环”听着有点疯,但效果的确不一样。
你不能再简单了解成“模型更强”——它更像是学会了把 证明当成第一性准绳 去打磨。
也难怪如今末尾有人担心:
当前 AI 会不会给你甩来一份三十页的推导,然后人类数学家愣在那里揣摩——
“我得不要审?审得过吗?要审多久?敢签不签字?出了锅算谁的?”
但假如三个月没人挑出成绩,那到底算谁赢?
AI 是助手,还是主体?DeepSeek 把这个成绩提早推到了前台。
(, 下载次数: 0)
上传
点击文件名下载附件
它的开源,不是为了秀一次分数,而是把数学 AI 的核心矛盾直接亮出来:
假如模型永远不审查本人的推理,人类要怎样信?但假如它审查到末尾怀疑人生,我们又要怎样用?
此次的提高,不是更快、不是更大,而是更能反省。
而这种反省,说不定比任何“超越人类”的榜单都更关键。
至于这条路最终会不会把模型逼成一个每天怀疑本人定理的数学神经病?
说真的,挺值得继续看下去。
我是 CyberImmortal,关注我们,带你畅游AI世界!
欢迎光临 职贝云数AI新零售门户 (https://www.taojin168.com/cloud/)
Powered by Discuz! X3.5