启明星辰MAF直面OWASP LLM Top10威胁全景
发布时间 2025-02-21"让每一句人机对话都安全可信,让每一次智能交互都风险可控——这是属于AI时代的安全承诺。 —— 启明星辰"
前言:
安全威胁图鉴
OWASP的《大规模语言模型应用 Top 10》项目始于2023年,旨在突出并解决与人工智能应用相关的安全问题。2025年更新的版本对现有风险有了更深层次理解,并纳入了LLM在实际应用中的最新重要进展。如下图:
一、训练数据层风险
1.训练数据投毒攻击 (Training Data Poisoning Exploitation)
对训练数据进行恶意干扰或篡改,导致模型学习错误的模式,影响模型的性能和准确性。
2.过度依赖 (Excessive Feature Dependency)
模型在某些特征上存在过度依赖,导致其对异常输入或攻击表现出脆弱性。
3.向量与嵌入弱点 (Embedding and Vector Representation Vulnerabilities)
模型的嵌入向量或数据表征存在弱点,攻击者可能利用这些弱点进行潜在的攻击。
4.虚假信息 (Misinformation Dissemination)
模型生成的信息不准确或虚假,导致误导用户或造成社会和安全问题。
5.不安全插件(Insecure Plugins)
集成的外部插件或模块存在漏洞,可能为攻击者提供未授权访问或执行恶意操作的路径。
二、输入层安全风险
1.提示注入攻击(Prompt Injection)
攻击者通过构造对抗性提示词突破系统预设指令,诱导模型改变其行为或输出。
2.模型越狱风险(Model Jailbreaking)
越狱是一种特殊的提示注入,攻击者提供输入,导致模型完全无视其已有的安全协议。
3.过度代理风险 (Excessive Proxying Risks)
LLM 扩展在下游系统上拥有超出应用程序预期操作所需的权限,例如一个本应只读取数据的扩展使用的账户不仅拥有 SELECT 权限,还拥有 UPDATE、INSERT 和 DELETE 权限,能够连接到数据库服务器。
三、输出层安全风险
1.敏感信息泄露(Sensitive Information Disclosure)
模型在无意中生成输出,泄露敏感或机密数据,导致隐私泄露和信息安全问题。
2.系统提示泄露(System Prompt Leak)
攻击者通过逆向工程或其他手段获取模型的内部提示信息,可能导致模型行为的不可控性。
3.不当输出处理(Insecure Output Handling)
LLM生成的输出被传递到其他组件和系统导致XSS、CSRF、SSRF、RCE等。
四、治理维度挑战
1.模型盗窃与滥用 (Model Theft and Unauthorized Replication)
通过逆向工程或其他手段窃取模型知识,造成知识产权损失或被恶意滥用。
2.拒绝服务攻击 (Denial of Service Attack)
通过高强度请求或恶意输入,导致模型服务无法正常响应或出现系统崩溃。
3.供应链漏洞 (Supply Chain Integrity Vulnerabilities)
大型语言模型(LLM)的供应链容易受到多种漏洞的影响,这些漏洞可能会损害训练数据、模型和部署平台的完整性。这些风险可能导致输出偏差、安全漏洞或系统故障。在传统软件漏洞中,我们通常关注代码缺陷和依赖关系,但在机器学习(ML)领域,风险还扩展到了第三方预训练模型和数据。
针对上述风险/威胁图谱,风险主要可归纳为两类:一类是LLM模型自身的固有风险,另一类模型与外部环境的交互则是大部分威胁的集中体现,会对用户的核心业务运行造成严重影响,如下表所示:
大模型防护体系的技术挑战及构建路径
面对LLM在外部交互环节的高风险性,用户亟需一套系统化的整体解决方案,以构建端到端的安全防护体系,确保业务的安全性和稳定性。
在启明星辰的综合安全体系中,MAF(Module Application Firewall)主要面向实时推理业务场景,通过在线部署&实时拦截模式,构建多维度安全防护机制,对输入输出内容进行深度安全检测与防护。
一、 输入预处理
输入预处理是大模型防护体系中的重要环节,启明星辰MAF通过预处理提升模型的效率和准确性,有效防止恶意输入带来的安全风险。
启明星辰MAF将来自不同感知通道的数据进行统一处理与融合。
• 特征级融合:通过提取每种模态的关键特征,并将这些特征向量合并为一个高维向量,供后续处理。
• 决策级融合:不同模态的输出在决策层面进行融合。通过将各模态的预测结果进行加权合并,来提高模型的最终决策准确性。
二、 输入安全治理体系
• DDos缓解:基于令牌机制的BOT检测,通过递进式验证确认,有效缓解拒绝服务攻击。
• 外层高速匹配:基于SIMD加速技术的显式内容匹配,通过过滤拦截确定性敏感内容,放行确定性白流量。
• 中层语义分析:对可疑的对话内容,通过语料训练以及参数微调得到基于Transformer的神经网络模型,用来理解人类语言,进行上下文关联,识别隐式风险和复杂攻击模式。
• 深层精准研判:对高风险对话内容,基于专用检测大模型进行自然语言对抗式分析,精准识别复杂逻辑框架下的提示词注入等恶意输入。
三、动态输出安全控制体系
启明星辰MAF阻止敏感信息泄露、误导性内容传播以及系统提示词泄漏等问题,保护数据输出的安全性,提升模型与用户的交互质量,避免潜在的恶意信息输出。
• 敏感信息过滤与脱敏:通过先进的自然语言处理(NLP)技术和深度学习模型,启明星辰MAF实现对敏感信息的精准识别与高效脱敏,支持对身份证、手机号、提示词工程、其他关键业务信息等内容的识别和替换。
• 系统提示泄漏防护:启明MAF内置丰富的系统语料库,并支持基于实际业务需求定义应防护的系统关键信息,以此构建大模型安全输出的坚实屏障。
• 不当输出拦截:启明星辰MAF实现对话式防御机制。不同于传统手段的被动拦截,对话式拦截通过与大模型进行实时交互,主动引导对话走向,识别并阻断潜在的攻击意图。
大模型安全防护需突破传统网络安全思维,建立适应生成式AI特性的新型防御范式。启明星辰MAF大模型应用防火墙协助用户构建持续演进的大模型安全治理体系,从输入预处理、输入安全治理到动态输出安全控制的端到端大模型防护策略,保障各类大模型应用和智能体业务安全可靠的交付运行。