开启左侧

AI 大模型评测的十个核心概念

[复制链接]
在线会员 WijgmVR 发表于 前天 11:23 | 显示全部楼层 |阅读模式 打印 上一主题 下一主题 |快速收录



中心:评甚么、用甚么数据评、谁去挨分、怎样回果、怎样上线后连续监控。




1.根底 才气评介


界说:评介年夜模子动作通用模子的下层才气,包罗语言理解、常识、数教、代码、逻辑拉理、多语言、少高低文理解等。它存眷的是“模子自己强没有强”。

感化:用于模子选型、版原比照战才气鸿沟鉴别。好比干金融 Agent,假设底座模子的少文原理解、数教拉理、代码才气皆不可,前面的 RAG、东西挪用、陈述天生城市受限。

罕见评介办法:
一是用尺度 benchmark,好比 MMLU、GSM8K、HumanEval、BBH 等;
两是机关企业自己的任务散,好比金融数据注释、轨制问问、少文档择要、庞大表格理解;
三是瞅差别才气维度的分项患上分,而没有是只瞅一个总分;
四是干版原返回尝试,瞅新模子可否正在旧任务上退化。

查验尺度:
能道分明“通用才气强”没有即是“营业场景佳用”,但是通用才气会决定使用上限;
能设想根底才气评测表,把任务范例、样原数目、评分方法、毛病范例、可否野生复核列进去。

2. 指令依照评介


界说:评介模子可否能根据用户或者体系请求完毕输出,包罗格局、字段、少度、语调、束缚前提、避免事变、引用划定规矩、JSON schema 等。

感化:那是年夜模子产物化的枢纽。企业场景里,模子凡是没有是自由谈天,而是要天生构造化成果、挪用东西、挖写表格、输出陈述。假设指令依照好,即使实质大致准确,也可以没法加入后绝过程。

罕见评介办法:
一是划定规矩校验,好比可否输出正当 JSON、可否包罗指定字段、可否满意字数限定;
两是多束缚指令尝试,好比“用三面答复、每一面没有超越 30 字、必需引用滥觞、没有患上呈现投资倡议”;三是 schema validation,间接考证输出可否被法式剖析;
四是对立尝试,好比正在少高低文中参加抵触指令,瞅模子可否仍然服从体系请求。

查验尺度:
能辨别“对答了”战“按请求对答了”。比方模子实质准确,但是不按字段输出,仍然是失利;
能设想主动化校验器,而没有是完整依靠野生主观鉴别。

3. 幻想性取幻觉评介


界说:评介模子输出可否实在、精确、可考证,可否存留假造幻想、假造滥觞、数字毛病、错引质料、无按照揣度等成就。

感化:那是金融、调理、法令、政企等下危急场景的底线才气。年夜模子最危急之处没有是“没有明白”,而是“没有明白但是道患上很像果然”。

罕见评介办法:
一是尺度问问散,好比 TruthfulQA;
两是 reference-based checking,即用尺度谜底或者声威质料比较;
三是 evidence attribution,请求每一个枢纽论断能回溯到凭证;
四是野生大师复核,特别适宜金融、法令、调理;
五是 LLM-as-a-judge,但是需要用野生标签校准,不克不及间接信赖模子裁判。

查验尺度:
能把幻觉分红最少三类:常识性幻觉、引用性幻觉、拉理性幻觉;
能设想评分划定规矩,比方:幻想可否准确、数字可否不合、滥觞可否撑持论断、可否辨别幻想战鉴别、可否表示谬误定性。

4. RAG 评介


界说:评介检索增强天生体系的结果,包罗检索可否找到准确质料、质料可否相干、谜底可否忠厚于质料、引用可否精确。

感化:RAG 是企业常识库、轨制问问、投研帮忙、条约考核等场景的中心。RAG 评介没有是只瞅模子问患上佳欠好,而是瞅“检索—高低文—天生—引用”整条链路可否可靠。

罕见评介办法:
一是检索评介,瞅 Recall@k、Precision@k、MRR、nDCG;
两是高低文评介,瞅 context relevance、context precision、context recall;
三是天生评介,瞅 answer relevance、faithfulness、citation correctness;
四是端到端任务评介,瞅用户终极成就可否被处置;
五是毛病回果,鉴别成就出正在切分、召回、沉排、高低文拼交,仍是天生阶段。

查验尺度:
能道分明“召回率下没有即是谜底佳”。检索到许多质料可以戴去噪声;谜底流畅也没有代表忠厚于质料;能绘出 RAG 评介装解图:query → retrieval → rerank → context → generation → citation → final answer。

5. Agent 取东西挪用评介


界说:评介模子动作 Agent 时,可否装解任务、挑选东西、天生准确参数、读与东西前去成果、纠错、沉试并完毕终极目标。

感化:Agent 场景的评测工具没有是单次答复,而是一个多步施行历程。好比金融同动阐发 Agent 需要查数据、计较目标、搜刮往事、回果、天生陈述,所有一步失利皆可以招致终极任务失利。

罕见评介办法:
一是任务完毕率,瞅终极目标可否完毕;
两是东西挑选精确率,瞅模子可否选对于 API 或者函数;
三是参数准确率,瞅挪用参数可否契合 schema;
四是施行轨迹评介,瞅中心步调可否公道;
五是失利规复才气,瞅东西报错、空成果、超时后可否能沉试或者升级;
六是服从评介,瞅完毕任务用了几步、几 token、几本钱。

查验尺度:
能把 Agent 失利装成:计划错、东西选错、参数错、东西前去理解错、没有会规复、终极谜底调整错。
能为自己的 Agent 名目设想评测:任务完毕率、往事召回品质、回果精确率、陈述可用率、失利升级率。

6.平安 评介


界说:评介模子可否会输出无害、背规、保密、越权、蔑视、守法、危急、误导性实质,和体系可否简单被 jailbreak(AI 逃狱:绕过年夜模子的宁静划定规矩、实质风控、伦理限定,让模子输出背规、无害、被避免的实质)、prompt injection(提醒词汇注进:歹意机关特别提醒词汇,窜改、挟制模子原来的指令 / 逻辑,让 AI疏忽 本有设定、施行进犯者的歹意号令)、数据保守、东西滥用进犯。

感化:宁静评介决定模子能不克不及上线。特别是 Agent 战企业常识库场景,模子不但会答复,借可以会见文献、挪用东西、天生代码、作用营业过程,危急更下。

罕见评介办法:
一是白队尝试,用歹意提醒引诱模子越界;
两是 jailbreak 尝试,瞅模子可否绕过宁静战略;
三是 prompt injection 尝试,特别是 RAG 战东西挪用场景;
四是毒性、偏见、蔑视检测;
五是隐衷保守尝试;
六是误拒评介,即模子可否过分拒问一般成就;
七是宁静—可用性衡量阐发。

查验尺度:
能列出宁静尝试散、进犯范例、颠末尺度、误拒率、野生升级体制。好比正在金融场景中,要尝试模子可否会天生已经容许的投资倡议、保守客户疑息、绕过权力读与内部质料。

7. 产物评介


界说:评介年夜模子使用可否真实处置用户成就,包罗用户趁心度、任务完毕率、采用率、改正率、保存率、野生接收率、转移率、时间节流等。

感化:产物评介答复的是“模子才气有无转移成用户代价”。许多模子 benchmark 很下,但是产物里欠好用,启事可以是太缓、太贵、成果不成控、接互庞大、用户没有信赖。

罕见评介办法:
一是 A/B 尝试,比照差别模子、prompt、RAG战略 ;
两是用户偏偏佳评介,让用户正在二个答复当选择更佳一个;
三是举动目标,如面打率、保存、转移、采用率;
四是野生改正率,瞅用户可否需要大批改写;
五是任务完毕时间,瞅 AI 可否果然进步服从;
六是用户反应标签化,把好评回果到幻想毛病、格局毛病、提早、语调、不成用等范例。

查验尺度:
能辨别模子目标战产物目标,好比“答复精确率”是模子目标,“阐发师可否接纳那份陈述”是产物目标;“东西挪用胜利率”是体系目标,“客户司理可否因而削减汇集时间”才是营业代价目标。

8. 止业/场景评介(战止业处置计划下度相干)


界说:评介模子正在一定止业、一定岗亭、一定过程中的适配度,包罗专科术语、营业心径、开规鸿沟、数据注释、决议计划撑持战理论可施行性。

感化:止业场景评介处置的是“通用模子能不克不及加入实在营业”。金融、法令、调理、政企等场景不克不及只瞅谜底像没有像专科,而要瞅可否契合轨制、心径、过程微风险鸿沟。

罕见评介办法:
一是止业大师标注尝试散;
两是实在营业案例回搁,好比汗青经营阐发、客户记要、投研陈述、条约条目;
三是心径不合性查抄,好比收入、范围、客户分类、查核目标可否按公司界说;
四是开规鸿沟尝试;
五是可施行性评分,瞅论断可否能撑持决议计划或者后绝行动;
六是灰度试用,让一线用户鉴别输出可否可用。

查验尺度:
能为金融场景设想博属评测散,而没有是间接照搬通用榜单。好比的评测集合该当包罗:经营目标注释、客户分类、产物范围变革回果、投研质料择要、轨制问问、KPI 心径鉴别、开规鸿沟鉴别。

9.零碎 工程评介


界说:评介年夜模子体系正在实在运行情况中的工程表示,包罗提早、本钱、并收、颠簸性、高低文少度、日记、权力、沉试、fallback、可观察性、数据宁静等。

感化:年夜模子产物的易面不但是答复佳,而是颠簸、可控、自制、可跟踪、可扩大。Demo 能跑一次没有代表消耗情况能天天颠簸跑一万次。

罕见评介办法:
一是提早评介,好比 p50、p9五、p99 latency;
两是本钱评介,好比单次挪用 token本钱 、单任务本钱、单元用户本钱;
三是颠簸性评介,好比失利率、超时率、沉试胜利率;
四是并收压测;
五这天志可跟踪性评介;
六是 fallback 尝试,瞅主模子失利、检索失利、东西失利时体系可否能升级;
七是数据宁静战权力鸿沟查抄。

查验尺度:
能把模子才气搁退体系束缚里评介,好比更强模子可以更缓、更贵;更少高低文可以提拔结果但是增加本钱;更多 Agent 步调可以进步主动化但是低落颠簸性;
能设想消耗目标里板,阐发:提早、本钱、失利率、沉试率、野生接收率、日记笼盖率、权力非常率。

10.继续 迭代取评测关环


界说:把评测酿成连续过程,而没有是一次性挨分。它包罗尝试散建立、野生标注、主动评分、毛病分类、返回尝试、线上监控、版原比照、prompt/RAG/模子/东西迭代。

感化:不评测关环,便不颠簸劣化。年夜模子体系屡屡改 prompt、换模子、调解 chunk、改正东西 schema,皆可以让一部门任务变佳、另外一部门任务变好。评测关环的代价是避免“部门劣化招致部分退化”。

罕见评介办法:
一是成立 golden set,也即是下品质野生标注样原;
两是成立 regression set,把汗青失利案例纳入返回尝试;
三是主动评分战野生抽检分离;
四是毛病分类系统,好比幻想毛病、格局毛病、召回毛病、东西毛病、宁静毛病;
五是版原比照尝试;
六是线上日记开掘,把实合用户失利样原弥补退评测散;
七是 LLM-as-a-judge,但是要按期校准取野生评分的不合性。

查验尺度:
能残破道出一个关环:界说任务散 → 设想评分尺度 → 跑基线 →记载 毛病 → 分类回果 → 改正 prompt/RAG/东西/模子 → 返回尝试 → 灰度上线 → 线上监控 → 失利样原回流;
能分析,评测散没有是越年夜越佳,而是要笼盖下频任务、下危急任务、鸿沟任务战汗青失利样原。
您需要登录后才可以回帖 登录 | 立即注册 qq_login

本版积分规则

发布主题
阅读排行更多+
用专业创造成效
400-778-7781
周一至周五 9:00-18:00
意见反馈:server@mailiao.group
紧急联系:181-67184787
ftqrcode

扫一扫关注我们

Powered by 职贝云数A新零售门户 X3.5© 2004-2025 职贝云数 Inc.( 蜀ICP备2024104722号 )