开启左侧

如何评价大模型才能?AI测评榜单都在测啥?

[复制链接]
现在屡屡年夜厂搁出新AI模子,手艺陈述里总会甩出一堆数字:GPQA Diamond 91%、SWE-bench 80%、AIME 2025谦分……瞅患上人云里雾里。来日诰日咱们便去聊一聊,年夜模子公布时最爱秀的榜单,和商场(开辟者、公司、用户)真实最承认的的年夜模子才气。

公布会上公司爱秀的 ≠ 用户战开辟者最疑的。从用户使用感触感染动身,现在公认的“实人投票榜”是LMArena(从前嚷Chatbot Arena,LMSYS弄的谁人盲测擂台)。划定规矩简朴粗鲁:
    二个AI藏名答复统一个成就用户瞅完选“右边佳”仍是“右边佳”或者平手多少百万票下来算Elo分(跟国内象棋排名一个算法)

那个榜单为何最受欢送?LMArena没有靠牢固题目刷分,而是靠实人盲测投票去排名,LMArena测评维度也笼盖全面,包罗text/code/vision/text-to-image/image-edit/search/image-to-video or text-to-video。那些榜单让测评排名靠近一样平常谈天/写代码/问成就时的使用体会排名。那些维度里面:Text 是根底,决定您一样平常谈天体会;Code顺序 员最垂青,能不克不及实助搞活;Vision / Image / Video 测多模态,未来AI愈来愈朝“齐感民”走;Search 防幻觉、要最新资讯。

瞅text战code榜单,前十分别有字节跳动seed战智谱glm-5上榜了,国产年夜模子体会就职沉而讲近。

怎样评介年夜模子才气?AI测评榜单皆正在测啥?w2.jpg

总排名榜单,前10中只需字节seed,前20中另有智谱glm-5,阿里千文qwen3.5战kimi2.5

许多公司喜好秀的榜单

1,GPQA Diamond,只需 198讲最易的物理/化教/死物专士级单选题,成心设想成搜没有到谜底的。人类PhD大师均匀65%,一般人上彀查34%现在顶尖模子90%+,分析AI正在软核科学拉理上已经靠近以至超越年夜部门专士了。

2,AIME 2025 ,好国数教聘请赛实题下中死奥赛级易度,30讲年夜题,齐要整数谜底。现在年夜模子优良一面根本谦分了。

3,SWE-bench Verified ,实在GitHub建bug才气,从实在启源名目里浮薄500个已经考证的issue,让AI读代码、理解高低文、写patch。人类工程师均匀也就可以建20-30%,Claude Opus 4.6今朝最下80.8%。

4,Humanity’s Last Exam (HLE) ,2500讲跨教科大师级困难(数教+科学+人文),今朝最下分Gemini 3.1 Pro Preview 44.7%。

5,LiveCodeBench + MATH-500 等编程/数教新奇题。特地用近来1-2年的LeetCode/数教比赛题,制止模子延迟“违”过。防做弊神器。

6,τ²-bench / OSWorld / BrowseComp:测AI当“数字职工”的才气,能不克不及自己用浏览器、末端、东西完毕实在任务(好比助您订票、建网站、写陈述)。

7,MMMU-Pro:多模态理解增强版(瞅图+笔墨+表格共同拉理)。

您近来正在用哪一个模子?欢送留行聊聊您的实在使用体会。
您需要登录后才可以回帖 登录 | 立即注册 qq_login

本版积分规则

发布主题
阅读排行更多+
用专业创造成效
400-778-7781
周一至周五 9:00-18:00
意见反馈:server@mailiao.group
紧急联系:181-67184787
ftqrcode

扫一扫关注我们

Powered by 职贝云数A新零售门户 X3.5© 2004-2025 职贝云数 Inc.( 蜀ICP备2024104722号 )