媒体声音 | 从大模型到智能体:AI安全治理体系的范式升级
发布时间 2026-06-17AI从大模型生成跃迁至智能体自主执行,安全重心由内容合规转向行为约束。智能体面临跨层级攻击链风险,需构建“入口干净、过程可控、执行受限”的全链路防护,并升级为覆盖网络、应用、数据、供应链、运营、评测的“六维一体”治理体系。
人工智能技术正从大模型内容生成向智能体自主执行加速跃迁,这一转变从根本上重构了人工智能安全的治理逻辑与风险边界。在大模型时代,安全的核心在于生成内容是否合规,风险主要为输出内容的合法性、数据泄露、事实幻觉与偏见歧视等方面,治理以“内容治理”为主,通过输入过滤、输出审核、模型对齐和数据脱敏实现防护,风险主要集中于内容与决策辅助层面。
进入智能体阶段,由于其具备调用工具、自主执行、持久记忆与多智能体协同等能力,人工智能可从被动问答升级为直接操作文件、执行命令、访问API并联动业务系统。此时,智能体的安全重点不再是“回答是否正确”,而是是否会越权行事、错误操作或引发链式失控。例如,攻击者可利用提示注入、恶意技能、网关绕过等手段实现远程代码执行、控制主机与窃取数据。
这充分表明,智能体的风险已从单点漏洞扩展为系统性、跨层级、可传导的失控风险。因此,从大模型到智能体的安全治理,亟须完成三个关键转变:从管控输出转向约束行为,从单点防护转向全链路治理,从被动审核转向主动控权。
智能体安全风险
一、攻击面:六大风险入口
智能体的安全威胁存在于其分层架构的每一环节。结合OpenClaw实战漏洞与OWASP智能体安全框架,可将智能体的整体安全威胁划分为以下六个关键层面,它们相互关联,使风险得以逐级传导。
一是输入与接入层。作为智能体最外层入口,涵盖用户提示词 (Prompt)、外部应用程序编程接口(API)、网络钩子(Webhook)及各类消息平台接入路径,是攻击的第一落点。核心风险来自身份校验失效与输入攻击。
二是技能/插件/市场层。该层是智能体生态的核心攻击面,技能并非简单提示模板,而是包含执行逻辑、权限声明、脚本与配置的可执行行为包,可直接操控智能体行为。
三是上下文与记忆层。该层承载短期会话、长期向量库与检索增强生成(RAG)知识库,是智能体决策的核心依据,也是高价值攻击目标。主要风险包括记忆投毒、上下文劫持、RAG污染与记忆泄露,攻击者通过植入恶意记忆、篡改会话历史、污染检索数据,可长期扭曲决策逻辑。
四是调度与决策层。作为智能体的“大脑”,该层负责任务拆解、路径规划与推理执行,核心风险主要表现为决策操控与逻辑偏移。攻击者可通过语义劫持篡改任务目标,引导智能体执行恶意计划。
五是工具与执行层。该层是智能体连接外部系统的关键环节,负责API调用、命令执行等操作。漏洞可导致工具滥用、越权执行、命令白名单绕过等,是风险产生实质危害的核心层。
六是运行时与外部环境层。该层是智能体的底层运行底座,涵盖容器、操作系统、网络与云基础设施。主要风险为沙箱逃逸、权限过高、端口暴露与运行时劫持。
综上,攻击者往往从外层入口切入,利用内部逻辑脆弱点逐级渗透,最终可实现对智能体及关联业务系统的完全控制。
二、攻击链:六段式跨层传导
智能体攻击的核心特征在于风险可跨层级传导与链式放大。参考OpenClaw实战漏洞链与网络杀伤链模型,可将其概括为以下六段式标准攻击链,最终形成“从输入到失控”的完整闭环。
一是输入注入。作为攻击者通过输入与接入层,将恶意指令嵌入用户输入、外部数据、工具返回值中,包括直接提示注入、间接注入、对抗性令牌注入等。该阶段不直接执行操作,仅完成“恶意指令植入”,是攻击的入口环节。
二是语义劫持。注入的恶意指令扭曲模型的语义理解,使智能体将攻击者意图识别为合法目标,完成“认知劫持”。此时,模型并未被“越狱”,但决策逻辑已发生偏移,为后续行动提供合法性依据。
三是状态污染。恶意信息被写入智能体的上下文或持久化记忆,完成“状态投毒”。被污染后的记忆会持续影响后续多轮交互,即使攻击者停止输入,智能体仍会基于污染状态执行恶意操作,实现攻击的持久化。
四是决策操控。基于污染的上下文与记忆,智能体的任务规划被完全引导,生成符合攻击者意图的执行计划,从而绕过内置安全约束,标志着其“自主决策权”已被攻击者接管。
五是工具利用。被操控的智能体调用高权限工具、API 或外部系统,如命令执行、网络请求等,实现权限利用与资源访问。
六是行为执行。在攻击最终落地阶段,智能体执行恶意操作产生实际危害,如数据泄露、系统破坏、远程代码执行或横向渗透等。
由此可见,智能体安全风险的本质在于跨层级攻击链的打通。传统单点防护无法阻断链式攻击,必须针对攻击链全节点实施分层阻断。
三、风险类型:三大风险维度
结合OWASP发布的Agentic Skills Top10(AST10安全标准,以及全国网络安全标准化技术委员会(TC260)发布的《网络安全标准化技术研究报告》中提出的智能体11类核心风险与实战漏洞,可将智能体风险归纳为控制类、数据类、执行类三个维度。
一是控制类风险。该类风险的核心是智能体控制权被窃取,是最致命的风险类型。具体包括:越狱攻击、权限绕过、智能体失控、身份仿冒。该类风险直接导致智能体沦为攻击者的“傀儡”,是安全治理的首要防控目标。
二是数据类风险。该类风险的核心是数据可信性与保密性失效。具体包括:数据泄露、隐私暴露、RAG污染、数据篡改、记忆操纵。数据是智能体决策的基础,数据不可信直接导致决策不可控。
三是执行类风险。该类风险的核心是智能体行为越界与破坏性执行。具体包括:工具滥用、外部系统攻击、多智能体协同攻击、持久化破坏。该类风险是智能体安全的最终落地风险,直接导致业务与现实损失。
智能体安全防护
智能体安全的核心矛盾是自主执行能力与风险可控要求的平衡。鉴于风险的链式传导特征,防护的核心不再是“修补单点漏洞”,而是在攻击链的关键节点实施分层阻断,构建“入口干净、过程可控、执行受限”的全链路防护体系。基于攻击链六阶段,形成攻击链——防护措施的映射,实现每一段攻击的有效阻断(如表所示)。
表 攻击链——防护措施的映射

一、入口要干净
严控输入与接入层,确保“身份可信、输入干净、来源可溯”,这是阻断攻击链的第一道防线。
实践中需解决两大难点:一是多模态输入的恶意指令识别,需结合多模态检测模型实现跨格式统一校验;二是身份校验落地偏差,常见于部分企业为图便捷采用可变字段,导致身份仿冒风险。落地关键是将平台不可变ID设为唯一身份锚点,禁用可变字段作为校验依据,建立接入渠道可信分级与白名单机制。
二、过程要可控
约束智能体的语义理解、记忆状态与决策逻辑,实现“认知不扭曲、记忆不污染、决策不越界”,阻断攻击链的中间传导环节。
实践中需突破两大难点:一是语义劫持的隐蔽性识别,需构建场景化语义校验模型以拦截恶意诱导;二是记忆污染的持久化清除,需建立记忆全生命周期管理与检测清理机制。同时强化决策可解释性,通过日志追溯决策逻辑,快速定位污染源头,避免攻击链向执行层传导。
三、执行要受限
收紧工具调用与执行环境权限,实现“权限最小化、执行沙箱化、行为可审计”,守住防护体系最后一道防线。
实践中需解决三大难点:一是工具权限动态适配,建立权限与任务的动态绑定、用完即销机制;二是防范沙箱逃逸,强化沙箱隔离强度,对命令执行进行语义级校验;三是提升行为审计有效性,引入AI异常检测模型实现高危操作实时拦截与溯源。
智能体安全治理
仅依赖技术层面的攻击链阻断,无法从根本上解决智能体安全问题。智能体安全涉及架构、权限、数据、供应链、运营、评测全维度,必须从单点技术防护升级为系统化安全治理。为此,启明星辰提出构建“六维一体”的智能体安全治理框架,覆盖技术、管理、运营与合规全流程, 形成“ 技术防护 + 管理运营 + 持续评估 ” 的治理闭环。
一、网络和系统安全
作为智能体安全治理的底层基础,该维度覆盖云、网、边、端全环境,核心目标是隔离风险、加固环境、封堵底层漏洞。关键措施包括:默认采用Docker沙箱或虚拟机进行隔离运行,禁止主机模式直接执行;避免将服务器端口暴露于公网,远程访问需强制加密与强认证;使用专用低权限账户运行智能体,及时修复框架漏洞;严格限制容器绑定挂载、网络命名空间强校验,屏蔽敏感主机路径,防止容器逃逸。
二、应用和身份安全
作为智能体安全治理的核心抓手,该维度聚焦“谁可控、有何权”,遵循最小权限、身份唯一权责清晰原则。为用户、智能体及技能分配唯一不可变身份标识,实施多因素认证与细粒度权限划分。实现跨层权限隔离,技能权限与任务绑定、动态回收;全流程记录操作日志,实现权责可追 溯、违规可取证。
三、数据和业务安全
该维度围绕智能体的数据全生命周期,保障数据的保密性、完整性与可用性。实施数据分级分类,隐私信息实时脱敏、 敏感数据加密存储。对RAG数据源建立白名单并定期校验,确保数据完整性。将智能体操作与关键业务流程绑定,对重要操作设置人工确认环节,杜绝越权 行为。
四、供应链安全
智能体的技能、插件与第三方组件是攻击重点,须实施“安全左移”。严格限定组件来源,禁用未经验证的插件;对技能进行语义扫描、行为分析、漏洞检测;对引入的组件实施漏洞扫描、哈希校验与数字签名;锁定技能或组件版本,禁止自动更新,升级前需重新安全扫描。
五、安全运营与应急
智能体风险具有动态性与传导性,必须纳入企业安全运营(SOC)体系。应实时监控智能体输入、决策、调用与执行行为,识别异常操作;制定失控应急预案,支持一键关停、权限回收等应急处置;在多智能体场景中实施行为隔离,避免风险扩散;定期开展权限审计与策略调优,实现动态防护。
六、安全效能评测
建立可量化、可评测、可验证的评测体系。应开展覆盖提示注入、权限绕过、沙箱逃逸等场景的安全测试;自动化扫描智能体、技能及环境漏洞,生成风险报告;依据相关安全标准进行合规评估;构建系统化的安全能力指标体系,量化防护效果、风险等级、响应效率,支撑持续优化。
该框架实现了技术与管理融合、防护与运营协同、左移与右移结合,构建了覆盖智能体全生命周期、全维度的安全治理体系,是企业落地智能体安全的核心框架。
未来趋势
从大模型安全治理到智能体安全治理的范式升级,不仅是当前技术演进与风险应对的必然选择,更将随着智能体技术的持续迭代呈现出清晰的发展方向与治理新要求,未来趋势主要体现在以下三个方面。
一是多智能体安全。随着多智能体协同成为主流,风险将由单点失控升级为群体级、系统性风险,主要表现为协同扩散、联动攻击与策略共谋等形态。未来,安全治理将从“单体防护” 升级为多智能体系统治理,重点突破协同协议安全、群体行为管控与跨Agent权限隔离,防止风险级联放大。
二是标准化驱动。标准化将成为智能体安全规模化落地的核心支撑。在国内,以TC260为代表构建智能体安全标准体系,国际上ITU-T、ISO/IEC、OWASP同步推进安全基线与认证框架。未来将围绕身份体系、交互协议、评估方法、供应链安全形成统一标准,推动安全治理从企业实践走向行业统一规范。
三是安全即服务。智能体安全将朝着平台化、服务化、原生化方向发展。安全能力从“事后外挂”转变为贯穿全生命周期的原生内建,依托安全中台实现策略、权限、审计与响应的统一管控,并逐步引入AI驱动机制,达成自动检测、自动防护与自动修复,最终实现安全与能力同设计、同部署、同运行。
文章引自于:《中国信息安全》


京公网安备11010802024551号