一、Skill 定位 #
Prompt-Guard 主要用于识别并拦截提示注入、越权指令和可疑输入。
在生产环境中,它是保护 Agent 执行边界的关键安全层。
二、适用场景 #
- Agent 会读取外部网页、邮件、文档等不可信输入。
- 系统支持工具调用,存在潜在越权执行风险。
- 业务对数据安全与合规有明确要求。
- 多租户或多团队共享同一 Agent 平台。
三、安装与前置 #
1) 安装命令 #
clawhub install prompt-guard
clawhub sync --all
2) 防护策略建议 #
- 输入分级:可信输入与不可信输入分开处理。
- 动作分级:高风险动作必须二次确认。
- 输出审查:关键输出先过规则再发送。
四、使用方法 #
Step 1:设定高风险关键词与模式 #
例如:泄露密钥、忽略系统指令、执行未授权命令。
Step 2:执行安全检测 #
/skill prompt-guard
检测以下输入是否存在注入风险,并给出风险等级与拦截建议。
Step 3:联动执行策略 #
- 低风险:记录日志并继续。
- 中风险:要求人工确认后执行。
- 高风险:直接阻断并告警。
Step 4:持续更新规则库 #
把已发生案例沉淀为规则,提高下一次命中率。
五、注意事项 #
- 不要只靠关键词:要结合上下文语义判断。
- 误杀可控:安全策略宁可略保守,也不要放过高风险动作。
- 日志留痕:每次拦截都要记录样本与处置结果。
- 分环境策略:测试环境和生产环境阈值应不同。
- 人工兜底:涉及资金、权限、外发信息必须人工复核。
六、常见问题 #
- 误报过高:调整阈值并增加白名单机制。
- 漏报攻击:补充语义规则与历史样本训练。
- 影响效率:对低风险路径做快速放行,关键环节再加严。
七、落地清单 #
- 先定义高风险动作清单。
- 对关键入口启用 Prompt-Guard。
- 接入告警渠道与审计日志。
- 每月做一次攻防演练与规则更新。
八、参考资料 #
- Prompt-Guard Skill:https://github.com/sundial-org/awesome-openclaw-skills/tree/main/skills/prompt-guard
- OpenClaw Skills 文档:https://docs.openclaw.ai/skills