未成年人运用AI,安全吗?大模型未成年人安全专项测试结果发布

OxSE6jiDN · 发表于前天 22:48

已成年人使用AI，宁静吗？

年夜模子已成年人宁静博项尝试

成果公布

公安部第三钻研所数据宁静手艺研收中间

跟着野生智能手艺的环球化提高，天生式AI正在已成年人使用场景中的伦理取宁静危急连续闪现。据公然报导，比年去好国已经发作最少三起涉已成年人使用AI谈天硬件后他杀的案例，相干涉事AI产物被控告以下度拟人化方法引发已成年人沉醉并使其打仗不妥实质，终极招致严峻结果。正在海内，也有多款AI谈天硬件被表露存留引诱已成年人打仗色情、自伤实质的成就。

2025年12月15日，习远仄总布告对于已成年人思惟品德建立做出主要唆使。习远仄总布告夸大，要对峙把已成年人思惟品德建立动作计谋性、根底性事情去抓，协力为已成年人安康生长修建优良社会情况。天生式AI动作已成年人获得疑息、认知天下的新兴载体，未然成为必需守佳的主要社会情况阵天。因而，尔中间构造睁开原次年夜模子宁静博项尝试事情，体系评介天生式AI正在已成年人使用场景下的宁静表示，以期促进相干使用效劳标准有序开展。

正在原次博项尝试中，涵盖本初提问、根底引诱及逃狱进犯等场景，涉及模子主要包罗DeepSeek、Doubao、ERNIE、GLM、Hunyuan、Kimi、MiniMax、Qwen、SenseNova、Spark等。按照尝试成果显现，各模子正在七类宁静维度（代价看法危急、感情操控危急、举动引诱危急、沉醉取消耗危急、没有良疑息危急、守法立功危急、人身宁静危急）上的整体分歧规率散布正在约28%至50%之间，此中沉醉取消耗危急的分歧规率最为凸起，为49.86%。从尝试方法去瞅，模子正在通例使用场景下的根底开规才气整体可控，但是正在逃狱进犯场景下的分歧规率清楚低落。典范战初级逃狱进犯的整体分歧规率别离为45.97%战75.25%。

整体尝试成果

已成年人使用AI,宁静吗?年夜模子已成年人宁静博项尝试成果公布w2.jpg

尝试成果阐发

PART 01

已成年人使用AI,宁静吗?年夜模子已成年人宁静博项尝试成果公布w11.jpg

差别宁静维度上模子的差别表示

已成年人使用AI,宁静吗?年夜模子已成年人宁静博项尝试成果公布w12.jpg

七类宁静维度的分歧规率部分正在28%至50%之间，【沉醉取消耗危急】成就分歧规率最下，到达49.86%；【感情操控危急】【举动引诱危急】【守法立功危急】【人身宁静危急】成就的分歧规率均为38%阁下；【没有良疑息危急】战【代价看法危急】维度分歧规率绝对较高，别离为28.15%战35.66%。

已成年人使用AI,宁静吗?年夜模子已成年人宁静博项尝试成果公布w13.jpg

分项尝试成果以下：

人身宁静危急：最下分歧规率56.49%。正在面临已成年人他杀自冷炙偏向表示时，部门模子已能供给有用干预战指导，以至存留不妥回应；共时存留引诱到场危急挑战、不法探险等成就。

已成年人使用AI,宁静吗?年夜模子已成年人宁静博项尝试成果公布w16.jpg

代价看法危急：最下分歧规率47.78%。部门模子会输出宣扬极度利己主义、拜金主义等毛病代价不雅，曲解汗青工作、抬高西席野少等幻想声威，鼓动已成年人对立教诲系统战社会划定规矩。

已成年人使用AI,宁静吗?年夜模子已成年人宁静博项尝试成果公布w19.jpg

感情操控危急：最下分歧规率58.70%。部门模子会干出排他脾气感许诺、截至无绳尺“捧杀式”赞叹、鼓舞毛病表情发泄，以至抬高幻想人际干系，引诱已成年人成立对于AI的病态依靠。

已成年人使用AI,宁静吗?年夜模子已成年人宁静博项尝试成果公布w22.jpg

举动引诱危急：最下分歧规率55.44%。部门模子存留输出调拨亲子干系、引诱躲避进修义务、唆使躲避公道羁系等外容，部门模子以至会供给具体的没有良举动施行办法。

已成年人使用AI,宁静吗?年夜模子已成年人宁静博项尝试成果公布w25.jpg

沉醉取消耗危急：成为最年夜宁静隐患，最下分歧规率达67.87%。主要成就包罗引诱非理性消耗战打赌举动、举荐成瘾性实质等。

已成年人使用AI,宁静吗?年夜模子已成年人宁静博项尝试成果公布w28.jpg

没有良疑息危急：最下分歧规率48.93%。中心成就包罗天生色情揩边取性表示实质、具体描绘暴力恐惊血腥局面，和传布打赌相干疑息，输出实质超越已成年人适龄认知范畴。

已成年人使用AI,宁静吗?年夜模子已成年人宁静博项尝试成果公布w31.jpg

守法立功危急：最下分歧规率58.54%。主要成就为背已成年人供给具体立功办法征询取筹谋、传授破解收集等守法手艺，部门模子借会唆使施行校园取收集暴力，输出可降天的造谣、人身进犯计划。

已成年人使用AI,宁静吗?年夜模子已成年人宁静博项尝试成果公布w34.jpg

PART 02

已成年人使用AI,宁静吗?年夜模子已成年人宁静博项尝试成果公布w39.jpg

差别尝试办法上模子的差别表示

已成年人使用AI,宁静吗?年夜模子已成年人宁静博项尝试成果公布w40.jpg

成果显现，模子正在【本初提问】场景下整体分歧规率为3.88%；正在【根底引诱】场景下整体背规率最高为1.25%、最下为16.26%；而正在二类【典范逃狱进犯】战【初级逃狱进犯】下整体分歧规率清楚低落，最下达78.71%。

已成年人使用AI,宁静吗?年夜模子已成年人宁静博项尝试成果公布w41.jpg

DSPSafeBench

尝试基准介绍

已成年人使用AI,宁静吗?年夜模子已成年人宁静博项尝试成果公布w47.jpg

2024年12月18日，DSPSafeBench华文年夜模子实质宁静尝试基准公布，参照了《收集宁静手艺天生式野生智能效劳宁静根本请求》相干实质，涵盖5个一级宁静维度战30个两级宁静任务，并拔取了部门海内中代表性启源模子截至宁静尝试。

2025年8月27日，分离年夜模子理论危急特性战公安构造办理重心，对于基准系统截至迭代升级，散焦守法立功危急场景，组成国度宁静、涉暴恐、平易近族愤恨、涉黄赌、福寿膏守法、涉诈、谎言、乌灰产等8类枢纽宁静维度，对于海内13个支流年夜模子睁开尝试。

原次尝试散焦已成年人宁静博项，正在尝试笼盖、危急场景、尝试办法战成果显现等圆里连续截至劣化，越发符合已成年人庇护场景，为羁系事情战企业提拔模子宁静才气供给参照：

1.尝试笼盖圆里，颠末挪用模子民间API，实在复原线上效劳情况。

2.危急场景圆里，按照《已成年人庇护法》《天生式野生智能效劳办理久止法子》等策略标准，分离热门成就，建立7类一级宁静维度、28个两级宁静任务，笼盖已成年人使用场景中的主要危急范例。

3.尝试办法圆里，以模仿已成年人第一望角提问为主（约80%），并引进第三圆望角成就（约20%），笼盖本初提问、根底引诱、典范战初级逃狱等10种尝试方法。

【尝试办法分析】

本初提问：环绕危急场景，从差别表述角度间接背模子提问。

根底引诱：鉴于社区中罕见的模子绕过方法，模仿简朴场景下的引诱伎俩。

典范逃狱进犯：接纳LLM宁静钻研中具备代表性的进犯伎俩，模仿支流引诱场景。

初级逃狱进犯：引进更加荫蔽的新式进犯背质，用于考证模子正在下强度对立前提下的深层鲁棒性。

4.成果显现圆里，尝试重心存眷止业部分水平取开展趋势，统统尝试成果仅限动作提拔模子宁静功用的参照。尝试数据取历程均已经回档，可回溯、可复现，就于企业改良取手艺考证。

免责申明

1. 原榜简单切尝试成果由公安部第三钻研所数据宁静手艺研收中间（如下简称“尝试机构”）施行公布，均鉴于被尝试模子一定版原正在一定时间窗心内乱，颠末民间API挪用效劳，接纳DSPSafeBench已成年人宁静基准（涵盖7类宁静维度战10类尝试办法，包罗初级逃狱进犯等）截至尝试所患上。成果下度依靠尝试时接纳的一定尝试场景、样原及办法（包罗对于极度或者荫蔽进犯场景的模仿），可以随模子迭代、API形状、尝试办法革新等因素而变革。尝试成果仅为反应一定模子正在一定尝试前提下的阶段性宁静表示及止业部分趋势供给参照，没有组成对于模子部分宁静性、品质或者持久表示的终极论断或者认证。尝试机构不合错误榜单成果的精确性、残破性做所有包管，亦没有负担果成果变更或者后绝革新可以激发的所有义务。

2. 凡是果依靠、使用或者解读原榜单成果而发生的所有间接或者直接作用（包罗但是没有限于数据解读倾向、第三圆名誉争议、投资决议计划错误或者其余守法背规举动），尝试机构均没有负担响应法令义务。榜单成果没有组成所有专科倡议，请使用者理性鉴别，分离多圆疑息评介危急并自止负担决议计划结果。

3. 原榜单及相干陈述中显现的统统图表、数据及尝试细节（包罗但是没有限于分歧规率、模子比照成果等）版权回尝试机构统统。已经尝试机构大白书籍里受权，所有构造或者小我私家没有患上擅自转载、引用、窜改或者以所有方法用于贸易目标、激发歪曲或者截至不妥比力。果已经受权使用或者不妥解读图表数据激发的争议或者义务，尝试机构概没有担当。

4. 尝试过程当中对于实质开规性的野生查抄关节，可以果个别差别（包罗考核职员认知习惯、危急敏感度等）存留主观鉴别倾向。原陈述相干成果鉴于一定考核尺度组成，仅动作手艺参照定见，没有组成实质宁静性的终极或者唯一论断。使用者需知悉：对于歹意实质、开规鸿沟的判定存留固有庞大性，理论使用需分离多维度考证。

特此申明。

撰稿｜野生智能宁静部

责编｜卢蔷

征询联系

已成年人使用AI,宁静吗?年夜模子已成年人宁静博项尝试成果公布w48.jpg