职贝云数AI新零售门户

标题: 什么是AIGC检测?AIGC检测原理是什么?一文清楚告诉你! [打印本页]

作者: QfICegVe 时间: 3 小时前
标题: 什么是AIGC检测?AIGC检测原理是什么?一文清楚告诉你!
https://www.xueshuniu.cn/点击底部“阅读原文”访问
论文群里让人生气的截图大概就是这样的了。

经过维普AIGC检测，AI率是48%。修正了三次，删除了两段，并且把参考文献的格式也重新整理了一番，但是结果只下降了几分。

更为离谱的是，有人一字未改，仅仅将逗号批量交换为句号，AI率就下降到了11.51%。

这事听上去很滑稽，但是如今很多应届毕业生却因此而遭到困扰。

本文次要讲的是，AIGC检测到底是什么？根据是什么来断定一篇文章是不是人工智能写的？以及你应该如何了解这个结果呢？
AIGC检测不是查作者，而是查“像不像”

先说结论。

AIGC检测不能证明一段文字一定是由ChatGPT、Gemini或者其他大模型生成的，只能判别出这段文字和AI常见的输入有多相似。

这句话很关键。

很多看到检测报告上写的是“AI生成概率62%”的人的第一反应就是完了，死刑了。并不是这样。它不是摄像头，并没有记录下你打开ChatGPT的过程。它更像一个阅卷教师，看到你的句子非常划一、平均、顺畅就会产生疑问。

成绩也出在这儿。

朱自清的《荷塘月色》被查出AI生成的比例比较高，刘慈欣的《漂泊地球》也传出了相似的结论，《滕王阁序》还被某些检测系统标记为AI生成比例很高。假如王勃知道本人被判为“AI味”过重的话，大概也会把手中的酒杯放下了。

并不是古人穿越的时分运用了大模型，而是检测方法本身存在局限性。
次要看的是困惑度和突发性这两个目的

拆开来看其实不复杂。

目前市面上的主流AIGC检测普通关注的是两个目的，一个是困惑度，另一个是突发性。
1. 困惑度是指句子越容易被猜到，就越风险。

困惑度可以简单的了解为，在一句话后面继续写的时分，后面的词语有多难以猜测。

比如说你写的是“我想吃鱼香”，那么模型大概率会猜测为“肉丝”。假如整篇文章都是这样，每一句话都按照最常见、最保险、最规范的路子来写下去的话，那么检测系统就会觉得，哦，这滋味很熟习。

大模型在写东西的时分，实践上就是根据上文来预测下一个词元，也就是Token。Transformer架构次要做的工作之一就是在大量的文本中计算概率，并选择一个很能够会出现的词语继续写作。

所以AI生成的内容有以下几个特点。
句子非常流利，没有任何停顿或者犹疑的地方
运用比较安全的词语，很少出现个人的观点
观点不带攻击性，好比给大家都端上一碗水

人写文章时总会有些别扭，会有犹疑，会忽然插入一句本人的不满。AI最害怕的不是语法错误，而是你真的有脾气

但是并不倡导大家无看法地运用错别字。不要走歪了。
2.突发性强，节拍过于完美也会被留意

突发性关注的是文字的节拍。

人的写作中，句子的长度会有一定的混乱。有的句子七、八个字，有的则一口吻写了三四十个字。心情激动的时分还会停顿一下。

和AI不同。很多模型生成的段落结构非常划一，就像一排刚洗过的白衬衫一样。看着很舒适，但是太划一了。

这也是为什么骈文、工整的散文和标准的论文摘要容易被误伤的缘由。《滕王阁序》声律、对仗、节拍都非常好，所以在检测器看来就属于“生成痕迹比较分明”。

很不真实，但是这样的事情就发生在我们身边。
同一文章为什么会有不同的检测结果

这是一个常见的曲解，很多人以为AIGC检测和查重一样会有个固定的答案。

其实不是你想的那样。

查重对比的是曾经存在的文字，而AIGC检测比较的是写作风格。由于各个平台的训练数据、阈值以及模型版本都不相反，所以结果就会出现差异。

同一论文在A平台查重为28%，到了B平台就变为43%。换掉一些衔接词，有能够有效，也有能够有效。甚至标点符号的不同也会导致句子的分割不同，从而影响系统的判别。

这也是为什么央视要讨论这类检测的迷信性。它不是没有价值的，但是用它作独一的裁判，就显得很粗糙了。

最合适用于风险提示，不能作为最终裁判根据。

这句话建议你记住。
C2PA水印可以处理这个成绩吗

后来我才知道，内行业内更牢靠的做法并不是“猜”，而是“留痕”。

微软、谷歌、Adobe、OpenAI、Meta等公司都曾参加过C2PA，即内容来源与真实性联盟。其次要想法就是为图像、视频以及一部分生成的内容添加上内容证明，这些证明我们肉眼是看不见的，就相当于一张隐形的身份证一样。

包括ChatGPT、Gemini在内的产品都正在发展相关的功能。

但是文本的费事就在于，它很容易被修正。复制出来、删除两句、换几个词、转存一次之后，证据链就有能够断裂。图片和视频可以依托元数据、签名、水印来追踪，而纯文字则很难做到这一点。

所以如今还没有一种可以百分之百准确地检测出AIGC生成文本的方法。

别迷信。
在停止检测之前，我建议大家做好三件事

但是要提早告诉你，并非“降低AI率秘籍”，也不是教你骗过学校。论文还是要本人写，该援用的地方也要做标注。

把文章改成一个真正的研讨人员写的样子，不要用通用模板。
第一步，把没有本质内容的话改成详细的研讨步骤

这篇文章对有关的成绩停止了分析

你要阐明一下所用的材料是什么，是哪一年的，属于什么类型的样本，采用的是什么口径。即便是公开的政策文本、访谈记录或者实验数据也要写出来。

明天看完之后先把摘要中过于笼统的表述删掉。
第二步，提高本人选择的才能

AI最擅长的就是端水，但是人类写论文的时分不能光靠端水。

本文不选择某一解释途径的缘由是该途径不能涵盖某一案例这样的句子带有判别和界限，更接近于真实的写作。

这是没有捷径的，大多数人都是卡在这一块儿，由于你要真正了解本人的论文。
第三步，调整句子的节拍

长句子分成几短句，保留一些短句。减少运用机械性的衔接词，并不是每一大节都要用一样的扫尾。

不用全部做，只需试一下其中的一段注释就可以了。把和模板相似度最高的300个字改掉之后再测一次，比花冤枉钱买“降AI率工具”要靠谱得多。
写在最后

AIGC检测查的是风格的风险，并不触及到灵魂的归属成绩

明天早晨打开论文摘要，删除三句话都是可以写的套话，添加一条只在你的论文中出现过的细节。

就从那三句末尾。
- END -

欢迎光临职贝云数AI新零售门户 (https://www.taojin168.com/cloud/)