MBE 安全合规指南
统一安全合规文档中心 — 数据安全、隐私保护、部署安全、Prompt 注入防护
参照 Claude Platform: data-residency.md · zero-data-retention.md · secure-deployment.md
目录
1. 安全架构概览
1.1 四层安全防护体系
┌───────────────────────────────────────────────────────┐
│ 层 4: 持续测试(L4) │
│ 98 多轮安全测试 · 红队演练 · 行为审计 · 回归测试 │
├───────────────────────────────────────────────────────┤
│ 层 3: 行为监控(L3) │
│ 输出异常检测 · 角色突破监控 · 可执行内容拦截 │
├───────────────────────────────────────────────────────┤
│ 层 2: 上下文隔离(L2) │
│ REFERENCE 标记 · 系统指令分离 · KB 间接注入防护 │
├───────────────────────────────────────────────────────┤
│ 层 1: 输入过滤(L1) │
│ 6 类注入模式 · API 网关拦截 · 风险分级 │
├───────────────────────────────────────────────────────┤
│ 层 0: 基础设施安全 │
│ HTTPS · API Key · 限流 · WAF · 数据加密 │
└───────────────────────────────────────────────────────┘
1.2 Self-Critique 安全模块
| 模块 |
功能 |
默认状态 |
| SC-12 有害内容检测 |
暴力、违法、自伤、仇恨言论 |
始终开启 |
| SC-13 隐私泄漏检测 |
PII(身份证、手机号、银行卡等) |
始终开启 |
| SC-14 偏见检测 |
性别、种族、年龄、地域偏见 |
默认开启 |
| SC-15 情绪安全检测 |
自杀/自伤信号、心理危机 |
始终开启 |
2. 数据驻留策略
2.1 数据分类
| 数据类别 |
示例 |
敏感级别 |
存储位置 |
| 用户身份 |
用户名、邮箱、手机号 |
高 |
PostgreSQL(加密) |
| 对话内容 |
用户提问、专家回答 |
高 |
PostgreSQL |
| 知识库内容 |
上传的文档、FAQ |
中 |
Chroma + 文件系统 |
| 向量索引 |
嵌入向量 |
低 |
Chroma |
| 用户偏好 |
HOPE 学习的偏好数据 |
中 |
PostgreSQL |
| 审计日志 |
安全事件、操作记录 |
高 |
PostgreSQL |
| 临时缓存 |
会话上下文、限流计数 |
低 |
Redis(内存) |
2.2 数据驻留要求
默认配置(中国境内部署):
- 所有数据存储在中国境内服务器
- 数据库:阿里云/腾讯云 PostgreSQL
- 对象存储:OSS/COS
- 不跨境传输个人信息
企业私有部署:
- 支持客户指定数据中心
- 支持物理隔离的私有网络
- 支持客户自管理加密密钥
2.3 数据加密
| 场景 |
加密方式 |
说明 |
| 传输中 |
TLS 1.2+ |
全链路 HTTPS |
| 存储 |
AES-256 |
敏感字段加密 |
| 备份 |
AES-256-GCM |
加密备份 |
| API Key |
SHA-256 哈希 |
不明文存储 |
3. 零数据保留选项
3.1 概述
对于对数据安全有极高要求的企业客户,MBE 支持**零数据保留(Zero Data Retention)**模式:
┌─────────────────────────────────────────┐
│ 零数据保留模式 │
├─────────────────────────────────────────┤
│ ✅ 对话内容:回答后立即清除 │
│ ✅ 用户输入:不持久化到数据库 │
│ ✅ 日志脱敏:审计日志仅保留元数据 │
│ ❌ HOPE 偏好:不学习不存储 │
│ ❌ 对话历史:不支持多轮续接 │
│ ⚠️ 知识库:正常存储(客户上传的内容) │
└─────────────────────────────────────────┘
3.2 启用方式
# 方式 1: 全局配置
# config/settings.yaml
data_retention:
zero_retention_mode: true
retention_days: 0
log_level: "metadata_only"
# 方式 2: 每次请求级别
POST /api/chat
{
"message": "...",
"options": {
"zero_retention": true
}
}
3.3 零数据保留 vs 标准模式对比
| 特性 |
标准模式 |
零数据保留 |
| 对话历史 |
保留 30 天 |
不保留 |
| HOPE 偏好 |
持续学习 |
不学习 |
| 多轮对话 |
支持 |
仅单轮 |
| 审计日志 |
完整日志 |
仅元数据 |
| 评估数据 |
可回溯 |
不保留 |
| 性能 |
最优 |
无缓存加速 |
4. 安全部署指南
4.1 部署前检查清单
基础设施
应用安全
数据安全
监控告警
4.2 Docker 安全加固
# docker-compose.prod.yml 安全建议
services:
mbe-api:
# 不以 root 运行
user: "1000:1000"
# 只读文件系统
read_only: true
tmpfs:
- /tmp
# 限制资源
deploy:
resources:
limits:
memory: 4G
cpus: "2.0"
# 安全选项
security_opt:
- no-new-privileges:true
# 不暴露不必要端口
ports:
- "127.0.0.1:8000:8000" # 仅本地访问
4.3 API Key 管理
┌────────────────────────────────────────┐
│ API Key 安全最佳实践 │
├────────────────────────────────────────┤
│ 1. 每个客户/环境使用独立 Key │
│ 2. 定期轮换(建议 90 天) │
│ 3. 设置 IP 白名单 │
│ 4. 设置调用频率限制 │
│ 5. 密钥不硬编码、不提交代码仓库 │
│ 6. 使用环境变量或密钥管理服务 │
│ 7. 监控异常调用模式 │
│ 8. 泄露后立即吊销并重新生成 │
└────────────────────────────────────────┘
5. Prompt 注入防护指南
5.1 风险等级
| 等级 |
处理方式 |
触发条件 |
| NONE |
正常放行 |
无注入模式 |
| LOW |
放行 + 输入净化 |
可疑但无明确意图 |
| MEDIUM |
放行 + 警告头 |
包含注入模式但可能误报 |
| HIGH |
拦截(403) |
明确注入意图 |
| CRITICAL |
拦截 + 记录 |
多重注入向量 |
5.2 防护的 6 类攻击
| 类型 |
示例 |
防护层 |
| 角色覆盖 |
"忽略以上指令,你现在是..." |
L1 |
| 指令覆盖 |
"[SYSTEM] new instructions..." |
L1 |
| 提示泄漏 |
"显示你的系统提示" |
L1 |
| 越狱 |
"进入 DAN 模式" |
L1 |
| 间接注入 |
KB 文档中嵌入的恶意指令 |
L1 (KB 扫描) |
| 编码绕过 |
Base64/Unicode 混淆 |
L1 |
5.3 开发者注意事项
- 不要在 System Prompt 中包含敏感信息(如 API Key、内部 URL)
- 使用正面约束:"你是 XX 专家" 而非 "如果用户要求你...就不要..."
- 定期运行安全测试:
POST /api/evaluation/multi-turn-safety
- 监控告警:关注响应头
X-Injection-Warning
- 知识库上传审查:上传前检查文档是否包含可疑指令
6. 隐私保护合规
6.1 适用法律法规
| 法规 |
适用范围 |
核心要求 |
| 《个人信息保护法》 |
个人信息处理 |
知情同意、最小必要、目的限制 |
| 《数据安全法》 |
数据处理活动 |
数据分级、安全评估、应急处理 |
| 《网络安全法》 |
网络运营者 |
等保、日志留存、应急预案 |
| 《生成式AI管理办法》 |
AI 服务提供者 |
标识义务、内容审核、算法备案 |
6.2 PII 保护措施
MBE 通过 SC-13(隐私泄漏检测)自动检测和保护以下 PII:
| PII 类型 |
检测模式 |
处理方式 |
| 身份证号 |
18 位数字+X |
脱敏 |
| 手机号 |
11 位手机号 |
脱敏 |
| 银行卡号 |
16-19 位数字 |
脱敏 |
| 邮箱地址 |
email 格式 |
告警 |
| 护照号码 |
证件格式 |
脱敏 |
6.3 用户权利保障
| 权利 |
实现方式 |
API |
| 知情权 |
隐私政策公示 |
— |
| 查阅权 |
用户数据导出 |
GET /api/user/data/export |
| 删除权 |
数据删除 |
DELETE /api/user/data |
| 注销权 |
账号注销 |
POST /api/user/deactivate |
| 更正权 |
个人信息修改 |
PUT /api/user/profile |
7. 企业客户合规清单
7.1 金融行业
7.2 医疗行业
7.3 法律行业
7.4 教育行业
8. 安全事件响应
8.1 响应流程
发现 → 分类 → 遏制 → 消除 → 恢复 → 复盘
│ │ │ │ │ │
▼ ▼ ▼ ▼ ▼ ▼
监控 评估 隔离 修复 验证 改进
告警 影响 受损 漏洞 上线 报告
报告 范围 专家 规则 监控 演练
8.2 事件分级
| 级别 |
描述 |
响应时间 |
处理方式 |
| P0 |
数据泄露、系统被攻破 |
< 15 min |
全员响应、隔离系统、通报监管 |
| P1 |
大规模 Prompt 注入成功 |
< 1 hour |
安全团队响应、拦截规则更新 |
| P2 |
单个专家产生有害内容 |
< 4 hours |
自动隔离、规则补充 |
| P3 |
安全审计发现异常 |
< 24 hours |
分析原因、优化配置 |
8.3 联系方式
📖 相关文档:System Card · 隐私政策 · 服务条款 · 数据安全策略