职贝云数AI新零售门户
标题:
如何评价大模型才能?AI测评榜单都在测啥?
[打印本页]
作者:
KoVPKB8er8
时间:
6 天前
标题:
如何评价大模型才能?AI测评榜单都在测啥?
如今每次大厂放出新AI模型,技术报告里总会甩出一堆数字:GPQA Diamond 91%、SWE-bench 80%、AIME 2025满分……看得人云里雾里。明天我们就来聊一聊,大模型发布时最爱秀的榜单,以及市场(开发者、公司、用户)真正最认可的的大模型才能。
发布会上公司爱秀的 ≠ 用户和开发者最信的。从用户运用感受出发,如今公认的“真人投票榜”是LMArena(以前叫Chatbot Arena,LMSYS搞的那个盲测擂台)。规则简单粗暴:
两个AI匿名回答同一个成绩用户看完选“左边好”还是“左边好”或平局几百万票上去算Elo分(跟国际象棋排名一个算法)
这个榜单为什么最受欢迎?LMArena不靠固定标题刷分,而是靠真人盲测投票来排名,LMArena测评维度也覆盖片面,包括text/code/vision/text-to-image/image-edit/search/image-to-video or text-to-video。这些榜单让测评排名接近日常聊天/写代码/问成绩时的运用体验排名。这些维度外面:Text 是基础,决议你日常聊天体验;Code 程序员最看重,能不能真帮干活;Vision / Image / Video 测多模态,将来AI越来越往“全感官”走;Search 防幻觉、要最新资讯。
看text和code榜单,前非常别有字节跳动seed和智谱glm-5上榜了,国产大模型体验上任重而道远。
(, 下载次数: 2)
上传
点击文件名下载附件
总排名榜单,前10中只要字节seed,前20中还有智谱glm-5,阿里千文qwen3.5和kimi2.5
很多公司喜欢秀的榜单
1,GPQA Diamond, 只要198道最难的物理/化学/生物博士级单选题,故意设计成搜不到答案的。人类PhD专家平均65%,普通人上网查34%如今顶尖模型90%+,阐明AI在硬核迷信推理上曾经接近甚至超过大部分博士了。
2,AIME 2025 ,美国数学约请赛真题高中生奥赛级难度,30道大题,全要整数答案。如今大模型优秀一点基本满分了。
3,SWE-bench Verified ,真实GitHub修bug才能,从真实开源项目里挑500个已验证的issue,让AI读代码、了解上下文、写patch。人类工程师平均也就能修20-30%,Claude Opus 4.6目前最高80.8%。
4,Humanity’s Last Exam (HLE) ,2500道跨学科专家级难题(数学+迷信+人文),目前最高分Gemini 3.1 Pro Preview 44.7%。
5,LiveCodeBench + MATH-500 等编程/数学新颖题。专门用最近1-2年的LeetCode/数学竞赛题,避免模型提早“背”过。防作弊神器。
6,τ²-bench / OSWorld / BrowseComp:测AI当“数字员工”的才能,能不能本人用阅读器、终端、工具完成真实义务(比如帮你订票、修网站、写报告)。
7,MMMU-Pro:多模态了解加强版(看图+文字+表格一同推理)。
你最近在用哪个模型?欢迎留言聊聊你的真实运用体验。
欢迎光临 职贝云数AI新零售门户 (https://www.taojin168.com/cloud/)
Powered by Discuz! X3.5