职贝云数AI新零售门户

标题: 算法测试新手村(39):生成式视觉 (AIGC) 的评测艺术 [打印本页]

作者: GBh28zHK    时间: 4 天前
标题: 算法测试新手村(39):生成式视觉 (AIGC) 的评测艺术
在上一篇分享中,我们讨论了高层感知(检测/分割),那是教会 AI “看世界”的过程,测试的核心是“准不准”。

明天,我们要跨入一个截然不同、且正处于迸发期的新范畴:生成式视觉(Generative Vision / AIGC)。这里的代表算法包括大名鼎鼎的 Stable Diffusion, Midjourney, DALL-E 等。

对于测试人员来说,这是一个颠覆性的应战。以前我们有“标准答案”,图片里有猫就是有猫。但在 AIGC 的世界里,当我们输入“一只在太空中喝咖啡的猫”,AI 生成了一万张不同的图,哪一张是对的?哪一张是错的?

这就好比从“修改数学卷子”变成了“鉴赏美术作品”。本文将为你抽丝剥茧,详细讲解如何用迷信、量化的方法,去评测这位“AI 艺术家”。


一、核心应战 —— “标准答案”消逝了


在传统 CV 测试中,我们用像素级的 IoU 来计算误差。但在生成式范畴,不存在独一的“真值”。

当你输入提示词(Prompt):“一幅梵高风格的星空”

因此,AIGC 的测试逻辑发生了根本转变:从“确定性验证”转向“统计分布评价”与“感知质量评价”。

我们要回答三个核心成绩:



二、画质评测 —— 它是“真”的吗?


我们需求衡量 AI 生成的图片,能否具有真实世界图片的质感、光影和细节。
1. 行业金标准:FID (Fréchet Inception Distance)


虽然名字听起来很数学,但它是目前衡量生成图像质量最威望的目的。
2. Inception Score (IS)


这是早期的目的,如今用得少了,但你能够会在旧论文中看到。它倾向于奖励那些“物体明晰”且“种类丰富”的模型。但由于它无法反映图片能否逼真(比如生成一个明晰的怪物,IS 也会很高),所以逐渐被 FID 取代。


三、语义分歧性评测 —— 它“听话”吗?


有时分图画得很美丽,但我明明输入的是“骑马的宇航员”,AI 却画成了“骑宇航员的马”。这就是语义对齐的成绩。
1. 核心目的:CLIP Score


这是目前最主流的图文婚配度评测目的,源自 OpenAI 的 CLIP 模型。



四、美学与客观评测 —— “好不好看”?


即便 FID 很低(像真图),CLIP Score 很高(内容对),图也能够很好看(构图杂乱、配色洋气)。美学评价是 AIGC 最难也最重要的一环。
1. 众包与 Elo Rating (竞技排名)


这是 Midjourney 等顶尖团队的核心机密武器。由于机器难以判别美感,我们回归“人”的判别。
2. Aesthetic Predictor (美学评分模型)


为了自动化,行业内训练了一些专门给图片打“美学分”的小模型(如 LAION-Aesthetics)。虽然不如人准确,但可以用于大规模挑选,比如自动过滤掉那些构图崩坏的废图。


五、实战中的“雷区” —— 常见缺陷形式


作为测试,在拿到一个 AIGC 模型时,除了跑上述目的,你必须停止专项缺陷测试。以下是 AIGC 最容易“翻车”的地方:
1. 肢体崩坏

2. 文字乱码

3. 空间关系混乱

4. 安全与成见




结语:AIGC 测试的将来


生成式视觉的测试,正在从“找茬”(寻觅像素错误)演化为“策展”(评价美学与创意)。

这是一个充满不确定性但也极其风趣的范畴。希望这篇文章能帮你建立起 AIGC 测试的基本坐标系。




欢迎光临 职贝云数AI新零售门户 (https://www.taojin168.com/cloud/) Powered by Discuz! X3.5