如何评价大模型才能?AI测评榜单都在测啥?

KoVPKB8er8 · 发表于 6 天前

现在屡屡年夜厂搁出新AI模子，手艺陈述里总会甩出一堆数字：GPQA Diamond 91%、SWE-bench 80%、AIME 2025谦分……瞅患上人云里雾里。来日诰日咱们便去聊一聊，年夜模子公布时最爱秀的榜单，和商场（开辟者、公司、用户）真实最承认的的年夜模子才气。

公布会上公司爱秀的 ≠ 用户战开辟者最疑的。从用户使用感触感染动身，现在公认的“实人投票榜”是LMArena（从前嚷Chatbot Arena，LMSYS弄的谁人盲测擂台）。划定规矩简朴粗鲁：

那个榜单为何最受欢送？LMArena没有靠牢固题目刷分，而是靠实人盲测投票去排名，LMArena测评维度也笼盖全面，包罗text/code/vision/text-to-image/image-edit/search/image-to-video or text-to-video。那些榜单让测评排名靠近一样平常谈天/写代码/问成就时的使用体会排名。那些维度里面：Text 是根底，决定您一样平常谈天体会；Code顺序员最垂青，能不克不及实助搞活；Vision / Image / Video 测多模态，未来AI愈来愈朝“齐感民”走；Search 防幻觉、要最新资讯。

瞅text战code榜单，前十分别有字节跳动seed战智谱glm-5上榜了，国产年夜模子体会就职沉而讲近。

怎样评介年夜模子才气?AI测评榜单皆正在测啥?w2.jpg

总排名榜单，前10中只需字节seed，前20中另有智谱glm-5，阿里千文qwen3.5战kimi2.5

许多公司喜好秀的榜单

1，GPQA Diamond，只需 198讲最易的物理/化教/死物专士级单选题，成心设想成搜没有到谜底的。人类PhD大师均匀65%，一般人上彀查34%现在顶尖模子90%+，分析AI正在软核科学拉理上已经靠近以至超越年夜部门专士了。

2，AIME 2025 ，好国数教聘请赛实题下中死奥赛级易度，30讲年夜题，齐要整数谜底。现在年夜模子优良一面根本谦分了。

3，SWE-bench Verified ，实在GitHub建bug才气，从实在启源名目里浮薄500个已经考证的issue，让AI读代码、理解高低文、写patch。人类工程师均匀也就可以建20-30%，Claude Opus 4.6今朝最下80.8%。

4，Humanity’s Last Exam (HLE) ，2500讲跨教科大师级困难（数教+科学+人文），今朝最下分Gemini 3.1 Pro Preview 44.7%。

5，LiveCodeBench + MATH-500 等编程/数教新奇题。特地用近来1-2年的LeetCode/数教比赛题，制止模子延迟“违”过。防做弊神器。

6，τ²-bench / OSWorld / BrowseComp：测AI当“数字职工”的才气，能不克不及自己用浏览器、末端、东西完毕实在任务（好比助您订票、建网站、写陈述）。

7，MMMU-Pro：多模态理解增强版（瞅图+笔墨+表格共同拉理）。

您近来正在用哪一个模子？欢送留行聊聊您的实在使用体会。

支付宝新出的财富黑卡是什么，推出这个的目

如何评价大模型才能?AI测评榜单都在测啥?

浏览过的版块

DeepSeek更新后被吐槽变冷变傻:比20年前的

关于我们

产品与服务

全网营销

加盟与合作