职贝云数AI新零售门户

标题: 如何评价大模型才能?AI测评榜单都在测啥? [打印本页]

作者: KoVPKB8er8 时间: 6 天前
标题: 如何评价大模型才能?AI测评榜单都在测啥?
如今每次大厂放出新AI模型，技术报告里总会甩出一堆数字：GPQA Diamond 91%、SWE-bench 80%、AIME 2025满分……看得人云里雾里。明天我们就来聊一聊，大模型发布时最爱秀的榜单，以及市场（开发者、公司、用户）真正最认可的的大模型才能。

发布会上公司爱秀的 ≠ 用户和开发者最信的。从用户运用感受出发，如今公认的“真人投票榜”是LMArena（以前叫Chatbot Arena，LMSYS搞的那个盲测擂台）。规则简单粗暴：

这个榜单为什么最受欢迎？LMArena不靠固定标题刷分，而是靠真人盲测投票来排名，LMArena测评维度也覆盖片面，包括text/code/vision/text-to-image/image-edit/search/image-to-video or text-to-video。这些榜单让测评排名接近日常聊天/写代码/问成绩时的运用体验排名。这些维度外面：Text 是基础，决议你日常聊天体验；Code 程序员最看重，能不能真帮干活；Vision / Image / Video 测多模态，将来AI越来越往“全感官”走；Search 防幻觉、要最新资讯。

看text和code榜单，前非常别有字节跳动seed和智谱glm-5上榜了，国产大模型体验上任重而道远。

(, 下载次数: 2)

总排名榜单，前10中只要字节seed，前20中还有智谱glm-5，阿里千文qwen3.5和kimi2.5

很多公司喜欢秀的榜单

1，GPQA Diamond，只要198道最难的物理/化学/生物博士级单选题，故意设计成搜不到答案的。人类PhD专家平均65%，普通人上网查34%如今顶尖模型90%+，阐明AI在硬核迷信推理上曾经接近甚至超过大部分博士了。

2，AIME 2025 ，美国数学约请赛真题高中生奥赛级难度，30道大题，全要整数答案。如今大模型优秀一点基本满分了。

3，SWE-bench Verified ，真实GitHub修bug才能，从真实开源项目里挑500个已验证的issue，让AI读代码、了解上下文、写patch。人类工程师平均也就能修20-30%，Claude Opus 4.6目前最高80.8%。

4，Humanity’s Last Exam (HLE) ，2500道跨学科专家级难题（数学+迷信+人文），目前最高分Gemini 3.1 Pro Preview 44.7%。

5，LiveCodeBench + MATH-500 等编程/数学新颖题。专门用最近1-2年的LeetCode/数学竞赛题，避免模型提早“背”过。防作弊神器。

6，τ²-bench / OSWorld / BrowseComp：测AI当“数字员工”的才能，能不能本人用阅读器、终端、工具完成真实义务（比如帮你订票、修网站、写报告）。

7，MMMU-Pro：多模态了解加强版（看图+文字+表格一同推理）。

你最近在用哪个模型？欢迎留言聊聊你的真实运用体验。

欢迎光临职贝云数AI新零售门户 (https://www.taojin168.com/cloud/)