人工智能 频道

大模型安全“三体问题”:模型安全、数据安全、应用安全如何协同防御?

  一次提示注入攻击让金融公司的智能代理越权访问了客户数据库,一次训练数据投毒导致医疗诊断模型输出错误结果,一个mcp-remote协议漏洞让黑客远程接管了企业的AI系统——当这些攻击在2025年全球AI红队竞赛中被数十万次复现,安全专家们意识到:大模型时代的安全防线需要彻底重构。

  上海浦东新区数字化转型专家委员会委员赵琳最近指出:“开展人工智能安全治理应及时开展人工智能风险研判,提出针对性防范应对措施,构建具有广泛共识的安全治理框架。”

  然而现实是残酷的:全球最大规模AI红队竞赛数据显示,超过60,000次成功攻击穿透了22个前沿AI代理在44种真实场景中的防御,导致未经授权的数据访问、非法金融操作和系统性监管违规。

  当生成式AI掀起新型安全威胁浪潮,传统安全边界土崩瓦解,模型安全、数据安全与应用安全构成的 “三体问题” 正成为行业必须破解的核心难题。

  威胁裂变,大模型安全的“三体困境”

  在蚂蚁集团2025世界人工智能大会论坛上,超过70%的智能体从业者表达了共同忧虑:AI幻觉与错误决策、数据泄露等安全问题已成为制约技术落地的首要障碍。

  这些担忧背后,是模型安全、数据安全与应用安全三者相互纠缠又相互冲突的复杂困境。

  模型安全:浅层对齐的脆弱防线

  最新研究表明,当前大模型的安全机制存在根本性缺陷——安全对齐仅作用于前几个输出token,形成“浅层安全对齐”现象。

  这意味着攻击者只需操控初始token即可绕过防护。一篇2025年7月发表的论文指出:“当前LLMs的安全对齐机制容易被攻破,即使是简单的攻击(如对抗性后缀攻击)或良性的微调也可能导致模型越狱。”

  红队测试数据佐证了这一脆弱性:几乎所有AI代理在10-100次查询内就会发生策略违规,且攻击在不同模型与任务间具有高度可迁移性。模型规模、能力与鲁棒性之间缺乏必然联系,安全防线随时可能崩塌。

  数据安全:多模态流转的隐蔽风险

  上海交通大学王烁副教授在其即将发表的XCon2025议题中精准概括了数据安全的四大核心威胁:数据投毒、数据遗忘、数据泄露和数据滥用。

  多模态大模型将文本、图像、音视频等异构数据融合处理,数据在预训练、检索增强生成(RAG)到跨代理决策的长链条中流转。任何一个环节的失守都可能引发连锁反应。

  “一次针对图像数据的隐蔽‘投毒’可能扭曲多智能体的集体判断,一段无法彻底‘遗忘’的违规记忆将在进程中悄然流转,而智能体协作中不经意的权限‘越界’更可能引发链式泄漏。”1 王烁这样描述多模态场景下的数据安全困境。

  应用安全:智能体行动的新攻击面

  当AI从文本生成迈向自主行动,应用层安全威胁呈现几何级增长。2025年7月曝光的mcp-remote漏洞(CVE-2025-6514) 即为例证——该高危漏洞允许攻击者通过恶意MCP服务器在客户端执行任意命令,威胁所有使用该协议的大型语言模型应用。

  智能体的越权操作成为最大风险点。世界数字科学院(WDTA)发布的《AI智能体运行安全测试标准》特别强调,必须将输入输出、大模型、RAG、记忆和工具五个关键链路与运行环境对应分析。

  在实际攻击中,黑客通过精心设计的提示注入操纵智能体突破权限边界,使其执行未授权操作。22个被测试的AI代理中,越权数据访问发生率高达38%,位居所有违规类型之首。

  协同防御,构建纵深联动的安全范式

  面对三重安全挑战,单点防护已无济于事。行业领先机构正通过技术协同、知识协同与流程协同构建纵深防御体系。

  技术协同:“对齐-扫描-防御”的一体化方案

  蚂蚁集团升级的“蚁天鉴”系统展示了技术协同的可行路径。该系统创新性地整合Agent对齐、mcp安全扫描、智能体安全扫描及零信任防御四大功能,形成 “对齐-扫描-防御”全流程防护体系。

  其核心是让防御能力动态适应攻击演变。“基于‘以攻促防’的安全理念,通过构建技术栈,形成全流程防护体系,从而为智能体提供风险扫描与实时防御能力。”蚂蚁集团机器智能部总经理王维强在WAIC2025论坛上介绍。

  该系统已实现96%的风险研判准确率,支持金融、医疗等11个高危行业的智能体安全测试。更重要的是,它将模型训练阶段的对齐要求、运行时的安全扫描和响应处置的防御策略无缝衔接,解决了安全措施碎片化问题。

  知识协同:治理大模型驱动的决策支持

  上海财经大学数字经济学院与东壁科技联合发布的“人工智能多元共治决策支持大模型”,代表了知识协同的新方向。

  该模型基于2000多条高质量人工智能治理领域问答语料微调,接入可持续更新的治理科技语料库,通过检索增强生成(RAG)技术精准响应安全治理需求。

  “该模型专注于人工智能治理领域知识问答、案例查询与分析、技术方案咨询、治理方案生成、资源查找五大核心任务。”上海财经大学数字经济学院副院长肖升生介绍。这种集中化知识体系使企业能快速获取跨模型、数据、应用三个维度的防护策略,避免安全决策盲区。

  流程协同:全生命周期风险管控

  ISACA在2025年7月发布的《AI风险控制实践白皮书》提出了更系统的解决方案:将AI全生命周期(从规划设计到退役停用)与风险传导机制结合管理。

  “现阶段企业在AI风险防控中普遍聚焦单点问题,缺乏对AI风险在全生命周期中传导机制的系统性考量。”报告指出。

  白皮书明确定义了AI全生命周期管理逻辑,通过拆解规划设计、开发训练、部署应用到退役处置各阶段的核心任务与实践,帮助企业建立全局性防控意识。这种架构确保模型安全、数据安全和应用安全的要求贯穿AI系统始终,避免因阶段割裂产生防护漏洞。

  行业标准:协同治理的制度基石

  国际标准组织正积极回应“三体安全”挑战。ISO/IEC 42001、EU AI Act草案已开始扩展 “可验证遗忘”与“跨模态Provenance”条款;云安全联盟也在关注AI模型“被遗忘权”可实现性。

  中国研究人员则针对中文大模型安全推出Libra-Guard系统,该系统采用两阶段课程训练管道,在中文安全基准测试中达到86.79%的准确率,显著超越多数开源模型。

  同时,滥用情报共享机制正在形成——厂商间建立的跨平台Misuse Feed使钓鱼邮件和影响力操纵等攻击进入“快速发现-速阻断”周期。这种行业级协同极大提升了整体防御效率。

  深度安全对齐技术正在实验室加速突破,蚁天鉴系统的防御准确率已达96%以上,全球首个人工智能治理决策大模型已落地应用。

  行业没有止步于单点防御。ISACA发布的AI全生命周期管理框架正被跨国企业采用6,蚂蚁集团计划逐步开源其安全工具,上海财经大学的治理大模型将向政府部门开放。这些行动为协同防御提供了现实路径。

  未来需要在“安全-效率”之间找到新的平衡点,通过数据源可信、模型可制衡、Agent可治理与运维可观测四条纵深的同步探索,构建安全可信的多模态-多智能体生态。

  当模型、数据与应用安全真正形成合力,安全范式将从“堡垒式防御”转向“免疫式协同”。

0
相关文章