打通传统软件供应链安全与 AI 原生风控壁垒,聚焦实战落地,补齐企业在Skills合规检测、风险研判与运营管控的核心才能短板。
从LLM越狱到对抗样本:生成式AI的输入安全成绩
(, 下载次数: 5)
上传
点击文件名下载附件
孟一凡
北美公司资深Ai专家
演讲引见:
随着大言语模型和生成式 AI 系统被越来越多地运用到问答、搜索、Agent、代码助手和企业知识库等场景,安全成绩也从“输入能否准确”逐渐转向“输入能否可被操控”。所谓 LLM越狱,是指攻击者经过构造提示、上下文或外部内容,诱导模型偏离原有的安全约束;而对抗样本 则从更普通的机器学习视角揭示了模型对输入扰动的脆弱性。二者虽然方式不同,但都指向同一个核心成绩:生成式 AI 系统能够会把不可信输入当成可信指令。
本次分享将从LLM越狱出发,延伸到对抗样本与输入攻击的更广义视角,讨论生成式 AI 为什么容易在输入侧失守,典型风险场景有哪些,以及在工程实际中如何经过输入管理、上下文隔离、权限控制和持续评测来构建更稳健的安全防线。重点不在于展现“如何绕过模型”,而在于了解其成因,并建立系统级的防御思绪。