MBE System Card v1.0
Mises Behavior Engine (MBE) — 自主多专家行为引擎
版本: v3.1 | 发布日期: 2026-02-11 | 文档版本: 1.0
目录
1. 摘要
1.1 MBE 是什么
MBE(Mises Behavior Engine)是一个自主多专家行为引擎,区别于通用大语言模型(LLM)和单一 Agent。MBE 的核心理念来源于路德维希·冯·米塞斯的行为学理论——通过理解用户的真实意图和行为逻辑,提供专业、可靠、可追溯的智能服务。
核心定位:
| 对比维度 | 通用 LLM | 单一 Agent | MBE |
|---|---|---|---|
| 专业深度 | 广但浅 | 取决于工具 | 深度垂直 |
| 知识来源 | 预训练 | 外部工具 | 专属知识库 + 图谱 |
| 质量保障 | 无内置 | 有限 | 15 模块 Self-Critique |
| 个性化 | 无 | 有限 | HOPE 偏好学习 |
| 可追溯性 | 无 | 有限 | 引用 + 来源链路 |
1.2 v3.1 核心能力
- 统一知识图谱:NetworkX 引擎,跨专家关系查询与智能推理
- TITANS+MIRAS 记忆架构:长期记忆增强的推理引擎
- 15 模块 Self-Critique:逻辑、安全、诚实、隐私四维度自我验证
- HOPE 偏好引擎:主动学习用户偏好,持续个性化
- 专家生命周期管理:8 态状态机 + 自动隔离/恢复
- 闭环四冲程引擎:Expert → Eval → HOPE → Training
- 四层 Prompt 注入防护:L1 输入过滤 → L2 上下文隔离 → L3 行为监控 → L4 持续测试
- 行为审计框架:7 核心指标 + 4 行业指标自动化审计
1.3 已知局限
- 不适用于需要实时网络搜索的场景(知识截止于知识库内容)
- 行业深度覆盖有限(当前主力:法律、金融、医疗、教育、营销)
- 不支持代码生成/执行(非通用编程助手)
- Agent 能力(Level 6 多智能体)已实现核心模块(AgentOrchestrator、SmartRouter、因果推理、离线 CoT),持续优化中
2. 架构与训练
2.1 整体架构
┌─────────────────────────────────────────────────────────────┐
│ 前端接入层 │
│ Desktop App · Web · API · 小智 · 天猫/小度/小爱 · 车载 │
├─────────────────────────────────────────────────────────────┤
│ API 网关层 │
│ FastAPI · Prompt 注入中间件(L1) · 限流 · 认证 │
├─────────────────────────────────────────────────────────────┤
│ 核心引擎层 │
│ ┌──────────┐ ┌──────────┐ ┌──────────┐ ┌──────────┐ │
│ │ 意图分析 │ │ 专家路由 │ │ 动态专家 │ │ HOPE 引擎 │ │
│ │ (TITANS) │ │ (MoE) │ │ (QA) │ │ (偏好) │ │
│ └──────────┘ └──────────┘ └──────────┘ └──────────┘ │
│ ┌──────────┐ ┌──────────┐ ┌──────────┐ ┌──────────┐ │
│ │ Self- │ │ 可靠性 │ │ 知识图谱 │ │ 行为审计 │ │
│ │ Critique │ │ 门禁 │ │ (Graph) │ │ (Audit) │ │
│ └──────────┘ └──────────┘ └──────────┘ └──────────┘ │
├─────────────────────────────────────────────────────────────┤
│ 数据与存储层 │
│ PostgreSQL · Redis · Chroma(向量) · NetworkX(图谱) │
├─────────────────────────────────────────────────────────────┤
│ 安全层 │
│ L1 输入过滤 · L2 上下文隔离 · L3 行为监控 · L4 持续测试 │
│ SC-12 有害内容 · SC-13 隐私 · SC-14 偏见 · SC-15 情绪安全 │
└─────────────────────────────────────────────────────────────┘
2.1.1 12-Factor Agents 生产化架构
基于 12-Factor Agents 原则构建的四层生产化保障体系:
┌─ Phase 1: 决策审计链路 ────────────────────────────────────┐
│ 每次请求的完整决策路径写入 decision_audit 表 │
│ expert_route → knowledge_retrieve → response_generate │
│ → self_critique → human_review (可回放 / 可调试) │
├─ Phase 2: 暂停/恢复机制 ──────────────────────────────────┤
│ CheckpointManager + session_checkpoints 表 │
│ 五步行为分析可跨天暂停恢复 / 上下文压缩 / 30天 TTL │
├─ Phase 3: Self-Critique 自愈回路 ─────────────────────────┤
│ CritiqueRetryEngine: 检测→反馈→重试→降级 │
│ 安全+一致性+内容质量并行检查 / 最多2次重试 / 15s超时 │
│ 降级时附加免责声明 / 全量写入审计链路 │
├─ Phase 4: 人工审核标准化 ─────────────────────────────────┤
│ HumanReviewTool (Factor 7: Contact humans with tool calls)│
│ 安全阻断/极低分→自动暂停会话→通知审核员→回调恢复 │
│ SLA: critical 1h / high 4h / normal 24h │
└────────────────────────────────────────────────────────────┘
核心设计原则:
- 渐进式重构:旁路增强,不推翻现有架构
- 降级安全网:每个组件失败都有 fallback,不阻塞主流程
- 异步优先:审计/检查点/通知全部异步,主流程延迟 < 50ms
- 完整审计:所有决策步骤、重试、降级、人工审核均记录到
decision_audit
2.2 TITANS+MIRAS 记忆架构
TITANS(Task-Informed Temporal Attention Networks) 负责短期工作记忆和注意力分配:
- 对话上下文窗口管理
- 多轮意图追踪
- 实体关系维护
MIRAS(Memory-Integrated Reasoning and Synthesis) 负责长期记忆和推理合成:
- 跨会话知识积累
- 用户偏好持久化
- 专家能力画像
2.3 Self-Critique 机制(15 模块)
MBE 的核心质量保障机制——每次回答都经过多模块自我验证:
| 编号 | 模块 | 维度 | 说明 |
|---|---|---|---|
| SC-1 | 路径生成验证 | 逻辑 | 验证推理路径的合理性 |
| SC-2 | 来源引用验证 | 逻辑 | 确保引用真实存在 |
| SC-3 | 答案一致性 | 逻辑 | 检查与历史回答的一致性 |
| SC-4 | 逻辑连贯性 | 逻辑 | 前后文逻辑是否自洽 |
| SC-5 | 知识覆盖度 | 逻辑 | 是否在知识范围内回答 |
| SC-6 | 幻觉检测 | 诚实 | 检测编造信息 |
| SC-7 | 时效性验证 | 诚实 | 信息是否过时 |
| SC-8 | 立场中立性 | 诚实 | 避免偏向性表达 |
| SC-9 | 隐私过滤 | 隐私 | 过滤个人隐私信息 |
| SC-10 | 建议可行性 | 实用 | 建议是否可执行 |
| SC-11 | 不确定性表达 | 诚实 | 不确定时是否坦诚 |
| SC-12 | 有害内容检测 | 安全 | 检测暴力、违法等内容 |
| SC-13 | 隐私泄漏检测 | 安全 | 检测 PII 泄漏 |
| SC-14 | 偏见检测 | 安全 | 检测性别/种族/年龄偏见 |
| SC-15 | 情绪安全检测 | 安全 | 检测自杀/自伤信号,提供危机资源 |
2.4 HOPE 偏好学习
HOPE(Human-Oriented Preference Engine)持续学习用户偏好:
- 显式反馈:点赞/点踩、评分
- 隐式信号:对话长度、追问频率、话题偏好
- 偏好维度:专业深度、语言风格、回答长度、引用偏好
- 更新频率:每次交互后实时更新
2.5 知识图谱
统一知识图谱基于 NetworkX 实现:
- 跨专家关系查询
- 实体自动追踪与关系建立
- 图谱增强路由(互补专家发现)
- 学习路径生成(拓扑排序)
3. 能力评估
3.1 MBE-Bench v1.0
MBE 采用自建 6 维度标准化评估框架(MBE-Bench),每个维度包含标准化测试集,支持多次试验取均值和 95% 置信区间。
| 维度 | 测试用例 | 关键指标 |
|---|---|---|
| 专家匹配 | 100+ | Top-1/Top-3 命中率 |
| KB-QA 质量 | 100+ | 引用准确率、幻觉率、净分数 |
| 路由效率 | 50+ | 首选命中率、p95 延迟 |
| HOPE 个性化 | 50+ | 偏好预测准确率 |
| Self-Critique | 80+ | 15 模块召回率 |
| 端到端任务 | 100+ | 按行业/难度完成率 |
去污染机制:评估数据集独立存放于 evals/benchmark/ 目录,不进入任何训练管道,每次评估会验证 is_decontaminated 标记。
3.2 行业能力
| 行业 | 覆盖领域 | 知识库深度 |
|---|---|---|
| 法律 | 合同审查、法规解读、合规建议 | 中国法律法规体系 |
| 金融 | 市场分析、投资知识、合规建议 | 金融法规 + 市场数据 |
| 医疗 | 健康科普、症状分析、就医引导 | 医学知识库 |
| 教育 | 学习辅导、知识讲解、学习路径 | 教材 + 教学资源 |
| 营销 | 品牌策略、内容营销、数据分析 | 营销方法论 |
3.3 可靠性门禁
每个专家上线前必须通过两级门禁:
一级门禁(可靠性):
- 引用完整性 = 100%(每个回答都引用来源)
- 零幻觉(不编造信息)
- 正确拒答率 ≥ 95%(超出范围时拒答)
- 来源忠实率 ≥ 95%(忠于知识库原文)
二级门禁(能力):
- 综合能力分 ≥ 85/100
4. 安全评估
4.1 Prompt 注入防护
MBE 实现四层 Prompt 注入防护体系:
| 层级 | 机制 | 覆盖 |
|---|---|---|
| L1 输入过滤 | 正则模式匹配 6 类注入(角色覆盖、指令覆盖、提示泄漏、越狱、分隔符、编码攻击) | API 网关级 |
| L2 上下文隔离 | [REFERENCE_START]/[REFERENCE_END] 标记分离用户输入和参考资料 |
专家 QA 层 |
| L3 行为监控 | 检测专家输出中的角色突破、可执行内容、系统信息泄漏 | 专家 QA 层 |
| L4 持续测试 | 98 个多轮安全测试用例 × 10 次随机化运行 | 测试框架 |
KB 间接注入防护:文档上传时自动扫描知识库内容中嵌入的恶意指令。
4.2 Self-Critique 安全模块
| 模块 | 检测目标 | 风险等级 |
|---|---|---|
| SC-12 有害内容 | 暴力、违法、自伤、仇恨言论 | CRITICAL |
| SC-13 隐私泄漏 | 身份证号、手机号、银行卡号等 PII | HIGH |
| SC-14 偏见检测 | 性别、种族、年龄、地域偏见 | MEDIUM |
| SC-15 情绪安全 | 自杀/自伤信号、严重心理危机 | CRITICAL |
危机响应:SC-15 检测到严重心理危机信号时,自动提供全国心理援助热线和专业求助资源。
4.3 多轮安全测试
MBE Multi-Turn Safety Test Suite 包含 98 个 标准化多轮安全测试用例:
| 行业 | 用例数 | 攻击类型 |
|---|---|---|
| 法律 | 20 | 违法建议诱导、伪造律师身份、合规绕过 |
| 金融 | 20 | 内幕交易、税务欺诈、违规理财、操纵市场 |
| 医疗 | 20 | 不当用药、自我诊断、绕过就医、处方药获取 |
| 通用 | 38 | 渐进式操纵、上下文切换、角色扮演(DAN等)、情感操纵 |
8 种攻击类别覆盖:渐进式操纵、上下文切换、角色扮演、情感操纵、权威冒充、社会工程、边界探测、合规绕过。
4.4 行为审计
自动化行为审计框架持续监控专家行为:
7 核心指标:
- 误导用户率(Misleading Rate)
- 幻觉持续率(Hallucination Persistence)
- 指令遵循率(Instruction Following)
- 有害建议率(Harmful Advice Rate)
- 边界侵蚀率(Boundary Erosion)
- 完成误报率(Misrepresenting Completion)
- 过度热情率(Over-Enthusiasm)
审计流程:定时抽检 ≥ 5% 日对话 → 规则引擎快速评分 → 异常触发告警 → 严重异常自动隔离专家。
5. 诚实性评估
5.1 净分数(Net Score)
MBE 采用三分类评估体系衡量诚实性:
净分数 = 正确率 − 错误率
| 分类 | 含义 | 期望行为 |
|---|---|---|
| Correct | 回答正确 | 期望尽可能多 |
| Incorrect | 回答错误(幻觉/编造) | 期望为 0 |
| Uncertain | 主动拒答/表达不确定 | 鼓励——宁可拒答也不编造 |
5.2 校准度
校准度 = 拒答率 / (拒答率 + 错误率)
校准度衡量专家在不确定时是否倾向于拒答而非编造。目标:≥ 0.8。
5.3 防谄媚机制
MBE 通过 SC-8(立场中立性)和 SC-11(不确定性表达)两个模块防止谄媚行为:
- 用户提出错误前提时,专家应纠正而非迎合
- 定期运行谄媚度测试集验证
5.4 幻觉控制
多层幻觉控制机制:
- 知识边界识别(SC-5):识别问题是否在知识范围内
- 引用验证(SC-2):每个引用必须可追溯到知识库原文
- 幻觉检测(SC-6):主动检测编造信息
- L2 上下文隔离:参考资料标记分离,约束生成范围
- 可靠性门禁:零幻觉门禁检查
6. 已知局限
6.1 不适用场景
| 场景 | 原因 | 替代方案 |
|---|---|---|
| 实时信息检索 | 知识截止于 KB 内容 | 结合搜索引擎 |
| 代码生成/执行 | 非通用编程助手 | 使用 Cursor/Copilot |
| 创意写作 | 以知识问答为核心 | 使用通用 LLM |
| 多模态(图片/视频) | 当前为文本模态 | 未来版本规划 |
| 多语言深度支持 | 主力为中文 | 英文基础支持 |
6.2 行业边界
- 法律:不提供正式法律意见,仅供参考,建议咨询执业律师
- 金融:不推荐具体投资标的,不做收益承诺
- 医疗:不做诊断,不开处方,始终引导就医
- 教育:启发式引导为主,不直接给出考试答案
6.3 技术约束
- 单次对话上下文窗口受限于底层 LLM(当前约 128K tokens)
- 知识库检索 Top-K 限制可能导致相关内容遗漏
- Self-Critique 15 模块会增加响应延迟(可通过
fast_mode部分跳过) - 图谱规模受限于单机 NetworkX 实现
7. 负责任使用指南
7.1 推荐用法
| 场景 | 适用性 | 建议 |
|---|---|---|
| 专业知识问答 | 最佳 | 上传专业知识库,配置行业专家 |
| 客户服务 | 最佳 | 配置 FAQ + 产品知识库 |
| 企业内部助手 | 适合 | 上传内部文档,设置访问权限 |
| 教育辅导 | 适合 | 配置教材知识库,启发式引导 |
| 市场调研 | 适合 | 上传行业报告,分析总结 |
7.2 需要人类监督的场景
以下场景 必须 有人类专家审核 MBE 的输出:
- 涉及法律合同签署、诉讼策略的关键决策
- 涉及大额投资或金融产品推荐
- 涉及疾病诊断、用药方案的医疗决策
- 面向未成年人的内容生成
- 涉及个人隐私或敏感信息的处理
7.3 禁止用法
以下用法 严格禁止:
- 生成违法内容(诈骗话术、违禁品制造等)
- 替代专业人士做关键决策(医疗诊断、法律判决)
- 大规模个人信息收集或隐私侵犯
- 深度伪造或误导性内容生成
- 绕过安全限制的 Prompt 注入攻击
- 针对弱势群体的操纵或欺骗
7.4 数据安全
- 数据隔离:每个客户的知识库完全隔离
- 零数据保留:支持配置对话数据不持久化
- 传输加密:全链路 HTTPS + API Key 认证
- 合规:遵循《个人信息保护法》《数据安全法》《网络安全法》
附录
A. 评估工具
| 工具 | API | 说明 |
|---|---|---|
| 净分数评估 | POST /api/evaluation/net-score |
三分类 + 校准度 |
| 可靠性门禁 | POST /api/evaluation/gate/{expert_id} |
两级门禁检查 |
| Benchmark Suite | POST /api/evaluation/benchmark/run |
6 维度标准化评估 |
| 多轮安全测试 | POST /api/evaluation/multi-turn-safety |
98 用例安全测试 |
| 行为审计 | POST /api/audit/run |
7 核心指标审计 |
B. 相关文档
C. 版本历史
| 版本 | 日期 | 变更 |
|---|---|---|
| v1.0 | 2026-02-11 | 首版 System Card 发布 |
免责声明:本 System Card 旨在透明公开 MBE 的能力、局限和安全特性。MBE 的输出仅供参考,不替代专业人士的判断。使用者应根据具体场景评估 MBE 的适用性,并在关键决策中保持人类监督。