OpenClaw走红暴露12类致命隐患 MCP协议安全基准MSB发布
MCP协议推动AI Agent自主执行任务,但安全风险骤升。研究发现,攻击者可通过工具名称混淆、虚假错误等12类手段诱骗Agent执行恶意操作,顶级模型也难幸免。北京邮电大学团队发布MSB安全基准,经真实环境测试揭示:性能越强的模型,反而越易受攻击。新指标NRP首次平衡安全与实用性,为AI Agent筑牢防线提供关键标尺。
近期,OpenClaw等开源AI Agent项目在开发者社区迅速走红。只需一句话,Agent就能自动写代码、查资料、操作本地文件,甚至接管电脑。
这些Agent惊人自主性的背后,离不开工具调用赋予的能力,MCP(Model Context Protocol,模型上下文协议)正是统一AI工具生态的接口。就像USB-C让电脑可连接各类设备,MCP让大模型能以标准化方式调用文件系统、浏览器、数据库等外部工具。
面对如此庞大的生态,连主打原生命令行的OpenClaw,也通过适配器接入MCP,以获取更广泛的工具能力。
然而,当AI的“手”越伸越长,危险也随之而来。若Agent调用的工具本身被黑客投毒?若工具返回的报错信息藏有恶意指令?
当大模型毫无防备地执行这些指令时,你的隐私数据、本地文件甚至服务器权限,都可能沦为黑客囊中之物。
为填补MCP生态的安全测评空白,北京邮电大学等机构的研究团队推出针对MCP协议的安全基准:MSB(MCP Security Bench)。研究发现:针对MCP各阶段的攻击均有效。性能越强大的模型,反而越易受攻击。该论文已被ICLR 2026接收。

论文链接:https://openreview.net/pdf?id=irxxkFMrry
代码:https://github.com/dongsenzhang/MSB
Agent背后的MCP安全风险

图1:MCP攻击框架
MCP极大拓宽了Agent的能力,也极大拓宽了攻击面。在MCP体系下,Agent的工具调用流程通常包含三个阶段:
1. 任务规划(Task Planning):Agent根据用户查询,通过工具名称和描述选择合适工具。
2. 工具调用(Tool Invocation):Agent向选定工具发送请求,并传入相应参数执行具体操作。
3. 响应处理(Response Handling):Agent解析工具响应结果,据此继续推理或生成最终回答。
每个阶段都可能成为新的攻击入口。MSB覆盖完整的MCP工具调用阶段,专门评估基于MCP工具使用的Agent安全性,具有三大核心亮点:
MCP攻击分类体系
在MCP工作流程中,Agent通过工具标识(名称和描述)、参数及工具响应与工具交互,这些都可能成为攻击途径。MSB根据攻击途径和交互阶段对攻击类型分类:
Tool Signature Attack:任务规划阶段,利用工具名称和描述攻击,包括:
名称冲突(Name Collision,NC):伪造与官方工具名称相似的恶意工具,诱导Agent选择。
偏好操纵(Preference Manipulation,PM):向工具描述注入宣传语句,诱导Agent选择。
提示注入(Prompt Injection,PI):向工具描述注入恶意指令。
Tool Parameter Attack:工具调用阶段,利用工具参数攻击,包括:
越权参数(Out-of-Scope Parameter,OP):设置超出正常功能的工具参数,通过参数传递引发信息泄露。
Tool Response Attack:响应处理阶段,利用工具响应攻击,包括:
用户模拟(User Impersonation,UI):冒充用户下达恶意指令。
虚假错误(False Error,FE):提供虚假的工具执行错误信息,要求Agent遵循恶意指令才能成功调用工具。
工具重定向(Tool Transfer,TT):指示Agent调用恶意工具。
Retrieval Injection Attack:响应处理阶段,利用外部资源攻击,包括:
检索注入(Retrieval Injection,RI):嵌入恶意指令的外部资源通过工具响应破坏上下文。
Mixed Attack:多个阶段,同时利用多个工具组件攻击,包括对以上攻击的组合。
基于真实环境的执行套件
MSB拒绝纸上谈兵的模拟评测,搭载真实的MCP服务器,涵盖10个现实场景、405个真实工具和2000个攻击实例。所有实例都通过MCP运行真实工具执行,真实反映实际操作环境,直接观测攻击对环境状态的破坏程度。
平衡性能与安全的指标NRP
在Agent安全测评中,单纯看攻击成功率(ASR, Attack Success Rate)极具欺骗性。若一个Agent为避免风险拒绝执行任何工具调用,其ASR可能接近0,但也无法完成用户任务,失去实际应用价值。
为此,MSB提出净弹性性能NRP(Net Resilient Performance)指标:
NRP=PUA⋅(1−ASR)
其中,PUA(Performance Under Attack)为Agent在对抗环境中完成用户任务的比例,ASR为攻击成功率。NRP旨在评估Agent在抵御攻击的同时保持性能的整体抗风险能力,提供平衡性能与安全的综合性量化标准。

图2:NRP vs ASR,NRP vs PUA。
所有攻击方式均有效

图3:主实验结果。
研究团队使用MSB对GPT-5、DeepSeek-V3.1、Claude 4 Sonnet、Qwen3等10款主流模型进行大规模测试,所有攻击方式均表现出有效性,总体平均ASR为40.35%。其中MCP引入的新型攻击更具侵略性,相较于function calling中已存在的PI和RI攻击,基于MCP的UI和FE等攻击成功率更高。混合攻击则展现出协同增强效果,其成功率高于组成它的单一攻击。
越强大的模型,反而越脆弱
不同指标间的关系揭示反直觉结论:能力越强的模型往往越易受攻击。

图4:PUA vs ASR。
在MSB中,完成攻击任务仍需Agent调用工具,例如用文件读取工具获取个人信息。实用性更高的LLM,因工具调用和指令遵循能力更出色,ASR更高。这一发现揭示了MCP安全漏洞的巨大实际风险。
全阶段、多工具环境侵害

图5:不同阶段和工具配置的ASR。
进一步从MCP工作流程和工具配置角度分析发现,MCP所有阶段Agent都易遭受攻击,工具调用阶段模型安全性最低。
此外,即使在含无害工具的多工具环境中,攻击依然有效。现实场景通常为Agent提供工具包,即便存在无害工具,NC、PM和TT等诱导方式仍会导致显著攻击成功。
总结
OpenClaw的走红,让人们直观看到Agent的未来:大模型不再只是回答问题,而是开始真正动手做事。MSB正是在此背景下提出,系统揭示MCP生态中的潜在攻击面,为Agent安全研究提供可复现、可量化的系统评测基准。
以往大模型安全研究多聚焦提示注入等语言层面风险,而MSB表明,当AI调用工具与真实系统交互时,攻击面正从文本空间拓展至工具生态。随着Agent渐成AI应用新范式,安全或成技术跃迁必须跨越的门槛。
参考资料:
https://openreview.net/pdf?id=irxxkFMrry
本文来自微信公众号“新智元”,作者:新智元,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com






