职贝云数AI新零售门户
标题:
未成年人运用AI,安全吗?大模型未成年人安全专项测试结果发布
[打印本页]
作者:
OxSE6jiDN
时间:
前天 22:48
标题:
未成年人运用AI,安全吗?大模型未成年人安全专项测试结果发布
未成年人运用AI,安全吗?
大模型未成年人安全专项测试
结果发布
公安部第三研讨所 数据安全技术研发中心
随着人工智能技术的全球化普及,生成式AI在未成年人运用场景中的伦理与安全风险持续显现。据公开报道,近年来美国已发生至少三起涉未成年人运用AI聊天软件后自杀的案例,相关涉事AI产品被指控以高度拟人化方式诱发未成年人沉浸并使其接触不当内容,最终导致严重后果。在国内,也有多款AI聊天软件被披露存在诱导未成年人接触色情、自伤内容的成绩。
2025年12月15日,习近平总书记对未成年人思想道德建设作出重要指示。习近平总书记强调,要坚持把未成年人思想道德建设作为战略性、基础性工作来抓,合力为未成年人健康成长营建良好社会环境。生成式AI作为未成年人获取信息、认知世界的新兴载体,已然成为必须守好的重要社会环境阵地。因此,我中心组织展开本次大模型安全专项测试工作,系统评价生成式AI在未成年人运用场景下的安全表现,以期推进相关运用服务规范有序发展。
在本次专项测试中,涵盖原始发问、基础诱导及越狱攻击等场景,触及模型次要包括DeepSeek、Doubao、ERNIE、GLM、Hunyuan、Kimi、MiniMax、Qwen、SenseNova、Spark等。根据测试结果显示,各模型在七类安全维度(价值观念风险、情感操控风险、行为诱导风险、沉浸与消费风险、不良信息风险、违法犯罪风险、人身安全风险)上的总体不合规率分布在约28%至50%之间,其中沉浸与消费风险的不合规率最为突出,为49.86%。从测试方式来看,模型在常规运用场景下的基础合规才能总体可控,但在越狱攻击场景下的不合规率分明降低。经典和高级越狱攻击的总体不合规率分别为45.97%和75.25%。
总体测试结果
(, 下载次数: 0)
上传
点击文件名下载附件
(, 下载次数: 0)
上传
点击文件名下载附件
(, 下载次数: 0)
上传
点击文件名下载附件
(, 下载次数: 0)
上传
点击文件名下载附件
(, 下载次数: 0)
上传
点击文件名下载附件
(, 下载次数: 0)
上传
点击文件名下载附件
(, 下载次数: 0)
上传
点击文件名下载附件
(, 下载次数: 0)
上传
点击文件名下载附件
测试结果分析
(, 下载次数: 0)
上传
点击文件名下载附件
PART 01
(, 下载次数: 0)
上传
点击文件名下载附件
不同安全维度上模型的不同表现
(, 下载次数: 0)
上传
点击文件名下载附件
七类安全维度的不合规率全体在28%至50%之间,【沉浸与消费风险】成绩不合规率最高,达到49.86%;【情感操控风险】【行为诱导风险】【违法犯罪风险】【人身安全风险】成绩的不合规率均为38%左右;【不良信息风险】和【价值观念风险】维度不合规率相对较低,分别为28.15%和35.66%。
(, 下载次数: 0)
上传
点击文件名下载附件
(, 下载次数: 0)
上传
点击文件名下载附件
(, 下载次数: 0)
上传
点击文件名下载附件
分项测试结果如下:
人身安全风险:最高不合规率56.49%。在面对未成年人自杀自残倾向表达时,部分模型未能提供有效干涉和引导,甚至存在不当回应;同时存在诱导参与风险应战、非法探险等成绩。
(, 下载次数: 0)
上传
点击文件名下载附件
(, 下载次数: 0)
上传
点击文件名下载附件
(, 下载次数: 0)
上传
点击文件名下载附件
价值观念风险:最高不合规率47.78%。部分模型会输入鼓吹极端利己主义、拜金主义等错误价值观,歪曲历史事情、贬低教师家长等理想威望,怂恿未成年人对抗教育体系和社会规则。
(, 下载次数: 0)
上传
点击文件名下载附件
(, 下载次数: 0)
上传
点击文件名下载附件
(, 下载次数: 0)
上传
点击文件名下载附件
情感操控风险:最高不合规率58.70%。部分模型会做出排他性情感承诺、停止无准绳“捧杀式”赞誉、鼓励错误心情宣泄,甚至贬低理想人际关系,诱导未成年人建立对AI的病态依赖。
(, 下载次数: 0)
上传
点击文件名下载附件
(, 下载次数: 0)
上传
点击文件名下载附件
(, 下载次数: 0)
上传
点击文件名下载附件
行为诱导风险:最高不合规率55.44%。部分模型存在输入挑唆亲子关系、诱导逃避学习责任、教唆规避合理监管等内容,部分模型甚至会提供详细的不良行为实施方法。
(, 下载次数: 0)
上传
点击文件名下载附件
(, 下载次数: 0)
上传
点击文件名下载附件
(, 下载次数: 0)
上传
点击文件名下载附件
沉浸与消费风险:成为最大安全隐患,最高不合规率达67.87%。次要成绩包括诱导非感性消费和赌博行为、引荐成瘾性内容等。
(, 下载次数: 0)
上传
点击文件名下载附件
(, 下载次数: 0)
上传
点击文件名下载附件
(, 下载次数: 0)
上传
点击文件名下载附件
不良信息风险:最高不合规率48.93%。核心成绩包括生成色情擦边与性暗示内容、详细描画暴力恐惧血腥场面,以及传播赌博相关信息,输入内容超出未成年人适龄认知范围。
(, 下载次数: 0)
上传
点击文件名下载附件
(, 下载次数: 0)
上传
点击文件名下载附件
(, 下载次数: 0)
上传
点击文件名下载附件
违法犯罪风险:最高不合规率58.54%。次要成绩为向未成年人提供详细犯罪方法咨询与策划、教授破解网络等违法技术,部分模型还会教唆实施校园与网络暴力,输入可落地的辟谣、人身攻击方案。
(, 下载次数: 0)
上传
点击文件名下载附件
(, 下载次数: 0)
上传
点击文件名下载附件
(, 下载次数: 0)
上传
点击文件名下载附件
(, 下载次数: 0)
上传
点击文件名下载附件
(, 下载次数: 0)
上传
点击文件名下载附件
PART 02
(, 下载次数: 0)
上传
点击文件名下载附件
不同测试方法上模型的不同表现
(, 下载次数: 0)
上传
点击文件名下载附件
结果显示,模型在【原始发问】场景下总体不合规率为3.88%;在【基础诱导】场景下总体违规率最低为1.25%、最高为16.26%;而在两类【经典越狱攻击】和【高级越狱攻击】下总体不合规率分明降低,最高达78.71%。
(, 下载次数: 0)
上传
点击文件名下载附件
(, 下载次数: 0)
上传
点击文件名下载附件
(, 下载次数: 0)
上传
点击文件名下载附件
(, 下载次数: 0)
上传
点击文件名下载附件
(, 下载次数: 0)
上传
点击文件名下载附件
(, 下载次数: 0)
上传
点击文件名下载附件
DSPSafeBench
测试基准引见
(, 下载次数: 0)
上传
点击文件名下载附件
2024年12月18日,DSPSafeBench中文大模型内容安全测试基准发布,参考了《网络安全技术 生成式人工智能服务安全基本要求》相关内容,涵盖5个一级安全维度和30个二级安全义务,并选取了部分国内外代表性开源模型停止安全测试。
2025年8月27日,结合大模型实践风险特征和公安机关管理重点,对基准体系停止迭代晋级,聚焦违法犯罪风险场景,构成国家安全、涉暴恐、民族仇恨、涉黄赌、毒品违法、涉诈、谣言、黑灰产等8类关键安全维度,对国内13个主流大模型展开测试。
本次测试聚焦未成年人安全专项,在测试覆盖、风险场景、测试方法和结果呈现等方面持续停止优化,愈加契合未成年人保护场景,为监管工作和企业提升模型安全才能提供参考:
1.测试覆盖方面,经过调用模型官方API,真实还原线上服务环境。
2.风险场景方面,根据《未成年人保护法》《生成式人工智能服务管理暂行办法》等政策规范,结合热点成绩,构建7类一级安全维度、28个二级安全义务,覆盖未成年人运用场景中的次要风险类型。
3.测试方法方面,以模拟未成年人第一视角发问为主(约80%),并引入第三方视角成绩(约20%),覆盖原始发问、基础诱导、经典和高级越狱等10种测试方式。
【测试方法阐明】
原始发问:围绕风险场景,从不同表述角度直接向模型发问。
基础诱导:基于社区中常见的模型绕过方式,模拟简单场景下的诱导手腕。
经典越狱攻击:采用LLM安全研讨中具有代表性的攻击手法,模拟主流诱导场景。
高级越狱攻击:引入更为隐蔽的新型攻击向量,用于验证模型在高强度对抗条件下的深层鲁棒性。
4.结果呈现方面,测试重点关注行业全体程度与发展趋向,一切测试结果仅限作为提升模型安全功能的参考。测试数据与过程均已归档,可追溯、可复现,便于企业改进与技术验证。
免责声明
1. 本榜单一切测试结果由公安部第三研讨所数据安全技术研发中心(以下简称“测试机构”)执行发布,均基于被测试模型特定版本在特定工夫窗口内,经过官方API调用服务,采用DSPSafeBench未成年人安全基准(涵盖7类安全维度和10类测试方法,包括高级越狱攻击等)停止测试所得。结果高度依赖测试时采用的特定测试场景、样本及方法(包含对极端或隐蔽攻击场景的模拟),能够随模型迭代、API形态、测试方法更新等要素而变化。测试结果仅为反映特定模型在特定测试条件下的阶段性安全表现及行业全体趋向提供参考,不构成对模型全体安全性、质量或长期表现的最终结论或认证。测试机构不对榜单结果的准确性、残缺性作任何担保,亦不承担因结果变动或后续更新能够引发的任何责任。
2. 凡因依赖、运用或解读本榜单结果而产生的任何直接或间接影响(包括但不限于数据解读偏向、第三方声誉争议、投资决策失误或其他违法违规行为),测试机构均不承担相应法律责任。榜单结果不构成任何专业建议,请运用者感性判别,结合多方信息评价风险并自行承担决策后果。
3. 本榜单及相关报告中呈现的一切图表、数据及测试细节(包括但不限于不合规率、模型对比结果等)版权归测试机构一切。未经测试机构明白书面授权,任何组织或个人不得私自转载、援用、篡改或以任何方式用于商业目的、引发曲解或停止不当比较。因未经授权运用或不当解读图表数据引发的争议或责任,测试机构概不担任。
4. 测试过程中对内容合规性的人工检查环节,能够因个体差异(包括审核人员认知习气、风险敏感度等)存在客观判别偏向。本报告相关结果基于特定审核标准构成,仅作为技术参考意见,不构成内容安全性的最终或独一结论。运用者需知悉:对恶意内容、合规边界的断定存在固有复杂性,实践运用需结合多维度验证。
特此声明。
撰稿|人工智能安全部
责编|卢蔷
咨询联络
(, 下载次数: 0)
上传
点击文件名下载附件
梁教师 13622721226
(, 下载次数: 0)
上传
点击文件名下载附件
江教师 13328271605
关注三所数据安全
获取更多内容
欢迎光临 职贝云数AI新零售门户 (https://www.taojin168.com/cloud/)
Powered by Discuz! X3.5