开启左侧

DeepSeek 模型晋级,这次会自我PUA了

[复制链接]
在线会员 0qCf 发表于 前天 13:35 | 显示全部楼层 |阅读模式 打印 上一主题 下一主题 |快速收录
正在 AI 圈瞅暂了各类功用榜,您会发明一个奇特但是遍及的征象:

各人只在意分数,出人太在意模子究竟是如何干进去的,和其拉导思考的历程,便算它半路跳步、先后冲突,只要谜底对于,也会挑选性疏忽,搁到 X 仄台晒分时还是一片喝采。
DeepSeek 模子升级,此次会自尔PUA了w2.jpg

此次 DeepSeekMath-V2 进去,气度完整纷歧样,满身高低一股数教王子秦西席“”的味道。

DeepSeek 模子升级,此次会自尔PUA了w3.jpg

它不但成就佳,共时借具有了一个新的才气:能自己管(pua)自己。

DeepSeek 模子升级,此次会自尔PUA了w4.jpg

DeepSeek 团队那回清楚是念处置模子一个老缺陷。

从前的数教才气,道是拉理,实在更像是给您瞅瞅模子如何思考的,而后您便发明模子:

假设能靠跳步省时间,这便跳。

您拿它干定理证实,它更多时候能让您疑心人死。
DeepSeek 模子升级,此次会自尔PUA了w5.jpg

以是 DeepSeek 痛快弄了一个考证器,模子写证实,考证器便浮薄刺。

浮薄完让模子自己改,改欠好持续浮薄。

十分具备璃月特性,但是结果确实粗鲁有用。

模子写的拉导链条不敷松散?增!

中心突然收集?挨回沉写!

缺步调?补!

逻辑对于没有上?通盘沉去。

DeepSeek 模子升级,此次会自尔PUA了w6.jpg

最枢纽的是,它没有是野生浮薄刺,而是让模子面临一个比自己更狠的“AI教员 ”。考证不外的证实,会主动被汇集成下易锻炼样原,再持续喂给考证器。考证器愈来愈抉剔,模子也被逼着愈来愈详尽。

整套轮回即是一个字:敦促(狠狠天PUA!)。

DeepSeek 模子升级,此次会自尔PUA了w7.jpg

ProofBench 上它排患上没有下也一般,那基准测的是“像没有像人写证实”,而 DeepSeek 那回目标底子没有是模仿人,是让模子能把自己逼退一个逻辑关环里,没有靠人类兜底。
DeepSeek 模子升级,此次会自尔PUA了w8.jpg

真实吓人的是真战数教比赛的变革。

DeepSeek 模子升级,此次会自尔PUA了w9.jpg

IMO 五题,CMO 五题,Putnam 118分。

从前模子刷题,偶然分更像是搜刮到套路,查到谜底,大概依靠已经睹过的方法,现在它靠的是一个自己查抄自己的历程。
DeepSeek 模子升级,此次会自尔PUA了w10.jpg

此次的明面没有是分数,是它能干到:

写完一段拉理后反过去浮薄自己的缺陷,发明拉导没有稳能主动归去建步调。

碰到没法肯定的论断时会自尔量信,而没有是瞎赌一个,最初面临用户的肝火时,暗暗嘀咕一声:尔操,用户喜了。

DeepSeek 模子升级,此次会自尔PUA了w11.jpg

那即是此次升级真实的代价:

模子第一次具备了“尔不克不及乱来已往”的观点。

您要明白,AI 数教里最年夜的成就,没有是没有会算,而是没有会疑心自己。人类数教野的强大,正在于这种天赋的敏感:觉得那里不合错误。

而 LLM 最缺的即是那一面,DeepSeekMath-V2 的自考证体制,即是正在给模子挨这类“敏感度补钉”。
DeepSeek 模子升级,此次会自尔PUA了w12.jpg

它开端把自己的输出当做工具,而没有是成果。

它开端教会量信,而没有是跳过。

它开端明白拉理链条比终极谜底更主要。

数教 AI 的路,可以第一次从“刷题机械人”拐背“能处置不谜底的成就”的标的目的,持久瞅,这类自尔敦促才气比所有一次比赛金牌均可怕很多。

您没法靠嘉奖分数锻炼模子来证一个借出被人类证实的料想,但是您能够锻炼它教会查抄逻辑、均衡拉理、检查自己漏洞,那才是它未来有机会撞已知成就的真实尽头。

DeepSeekMath-V2 此次最年夜的变革,实在没有是所谓的“拉导才气”更强,而是开端对于自己下狠脚,会自尔量信改良了,“拉导才气”不过其具有此才气后戴去的Buff。

它不但输出论断,借会像个偏偏执的钻研死一致,把自己的拉理从头扫一遍、浮薄缺陷、沉写,再浮薄缺陷、再沉写。
DeepSeek 模子升级,此次会自尔PUA了w13.jpg

那套“自证轮回”听着有面疯,但是结果确实纷歧样。

您不克不及再简朴理解成“模子更强”——它更像是教会了把 证实当做第一性绳尺 来挨磨。

也易怪现在开端有人担忧:

目前 AI 会没有会给您甩去一份三十页的拉导,而后人类数教野愣正在那边揣测——
“尔患上没有要审?审患上过吗?要审多暂?敢签没有具名?出了锅算谁的?”

但是假设三个月出人浮薄出成就,这终归算谁赢?

AI 是帮忙,仍是主体?DeepSeek 把那个成就延迟拉到了前台。
DeepSeek 模子升级,此次会自尔PUA了w14.jpg

它的启源,没有是为了秀一次分数,而是把数教 AI 的中心冲突间接明进去:

假设模子永久没有检查自己的拉理,人类要如何疑?但是假设它检查到开端疑心人死,咱们又要如何用?

这次的进步,没有是更快、没有是更年夜,而是更能检讨。

而这类检讨,道大概比所有“逾越人类”的榜单皆更枢纽。

至于那条路终极会没有会把模子逼成一个天天疑心自己定理的数教精神病?

道果然,挺值患上持续瞅上来。

尔是 CyberI妹妹ortal,存眷咱们,戴您畅游AI天下!

您需要登录后才可以回帖 登录 | 立即注册 qq_login

本版积分规则

发布主题
阅读排行更多+
用专业创造成效
400-778-7781
周一至周五 9:00-18:00
意见反馈:server@mailiao.group
紧急联系:181-67184787
ftqrcode

扫一扫关注我们

Powered by 职贝云数A新零售门户 X3.5© 2004-2025 职贝云数 Inc.( 蜀ICP备2024104722号 )