MBE System Card v1.0

Mises Behavior Engine (MBE) — 自主多专家行为引擎
版本: v3.1 | 发布日期: 2026-02-11 | 文档版本: 1.0


目录

  1. 摘要
  2. 架构与训练
  3. 能力评估
  4. 安全评估
  5. 诚实性评估
  6. 已知局限
  7. 负责任使用指南

1. 摘要

1.1 MBE 是什么

MBE(Mises Behavior Engine)是一个自主多专家行为引擎,区别于通用大语言模型(LLM)和单一 Agent。MBE 的核心理念来源于路德维希·冯·米塞斯的行为学理论——通过理解用户的真实意图行为逻辑,提供专业、可靠、可追溯的智能服务。

核心定位

对比维度 通用 LLM 单一 Agent MBE
专业深度 广但浅 取决于工具 深度垂直
知识来源 预训练 外部工具 专属知识库 + 图谱
质量保障 无内置 有限 15 模块 Self-Critique
个性化 有限 HOPE 偏好学习
可追溯性 有限 引用 + 来源链路

1.2 v3.1 核心能力

  • 统一知识图谱:NetworkX 引擎,跨专家关系查询与智能推理
  • TITANS+MIRAS 记忆架构:长期记忆增强的推理引擎
  • 15 模块 Self-Critique:逻辑、安全、诚实、隐私四维度自我验证
  • HOPE 偏好引擎:主动学习用户偏好,持续个性化
  • 专家生命周期管理:8 态状态机 + 自动隔离/恢复
  • 闭环四冲程引擎:Expert → Eval → HOPE → Training
  • 四层 Prompt 注入防护:L1 输入过滤 → L2 上下文隔离 → L3 行为监控 → L4 持续测试
  • 行为审计框架:7 核心指标 + 4 行业指标自动化审计

1.3 已知局限

  • 不适用于需要实时网络搜索的场景(知识截止于知识库内容)
  • 行业深度覆盖有限(当前主力:法律、金融、医疗、教育、营销)
  • 不支持代码生成/执行(非通用编程助手)
  • Agent 能力(Level 6 多智能体)已实现核心模块(AgentOrchestrator、SmartRouter、因果推理、离线 CoT),持续优化中

2. 架构与训练

2.1 整体架构

┌─────────────────────────────────────────────────────────────┐
│                    前端接入层                                 │
│  Desktop App · Web · API · 小智 · 天猫/小度/小爱 · 车载      │
├─────────────────────────────────────────────────────────────┤
│                    API 网关层                                 │
│  FastAPI · Prompt 注入中间件(L1) · 限流 · 认证               │
├─────────────────────────────────────────────────────────────┤
│                    核心引擎层                                 │
│  ┌──────────┐  ┌──────────┐  ┌──────────┐  ┌──────────┐   │
│  │ 意图分析  │  │ 专家路由  │  │ 动态专家  │  │ HOPE 引擎 │   │
│  │ (TITANS)  │  │ (MoE)    │  │ (QA)     │  │ (偏好)    │   │
│  └──────────┘  └──────────┘  └──────────┘  └──────────┘   │
│  ┌──────────┐  ┌──────────┐  ┌──────────┐  ┌──────────┐   │
│  │ Self-    │  │ 可靠性   │  │ 知识图谱  │  │ 行为审计  │   │
│  │ Critique │  │ 门禁     │  │ (Graph)  │  │ (Audit)  │   │
│  └──────────┘  └──────────┘  └──────────┘  └──────────┘   │
├─────────────────────────────────────────────────────────────┤
│                    数据与存储层                               │
│  PostgreSQL · Redis · Chroma(向量) · NetworkX(图谱)          │
├─────────────────────────────────────────────────────────────┤
│                    安全层                                     │
│  L1 输入过滤 · L2 上下文隔离 · L3 行为监控 · L4 持续测试     │
│  SC-12 有害内容 · SC-13 隐私 · SC-14 偏见 · SC-15 情绪安全   │
└─────────────────────────────────────────────────────────────┘

2.1.1 12-Factor Agents 生产化架构

基于 12-Factor Agents 原则构建的四层生产化保障体系:

┌─ Phase 1: 决策审计链路 ────────────────────────────────────┐
│  每次请求的完整决策路径写入 decision_audit 表               │
│  expert_route → knowledge_retrieve → response_generate     │
│  → self_critique → human_review (可回放 / 可调试)          │
├─ Phase 2: 暂停/恢复机制 ──────────────────────────────────┤
│  CheckpointManager + session_checkpoints 表                │
│  五步行为分析可跨天暂停恢复 / 上下文压缩 / 30天 TTL       │
├─ Phase 3: Self-Critique 自愈回路 ─────────────────────────┤
│  CritiqueRetryEngine: 检测→反馈→重试→降级                 │
│  安全+一致性+内容质量并行检查 / 最多2次重试 / 15s超时      │
│  降级时附加免责声明 / 全量写入审计链路                      │
├─ Phase 4: 人工审核标准化 ─────────────────────────────────┤
│  HumanReviewTool (Factor 7: Contact humans with tool calls)│
│  安全阻断/极低分→自动暂停会话→通知审核员→回调恢复          │
│  SLA: critical 1h / high 4h / normal 24h                   │
└────────────────────────────────────────────────────────────┘

核心设计原则

  • 渐进式重构:旁路增强,不推翻现有架构
  • 降级安全网:每个组件失败都有 fallback,不阻塞主流程
  • 异步优先:审计/检查点/通知全部异步,主流程延迟 < 50ms
  • 完整审计:所有决策步骤、重试、降级、人工审核均记录到 decision_audit

详细实施方案见 docs/MBE_12FACTOR_IMPLEMENTATION_PLAN.md

2.2 TITANS+MIRAS 记忆架构

TITANS(Task-Informed Temporal Attention Networks) 负责短期工作记忆和注意力分配:

  • 对话上下文窗口管理
  • 多轮意图追踪
  • 实体关系维护

MIRAS(Memory-Integrated Reasoning and Synthesis) 负责长期记忆和推理合成:

  • 跨会话知识积累
  • 用户偏好持久化
  • 专家能力画像

2.3 Self-Critique 机制(15 模块)

MBE 的核心质量保障机制——每次回答都经过多模块自我验证:

编号 模块 维度 说明
SC-1 路径生成验证 逻辑 验证推理路径的合理性
SC-2 来源引用验证 逻辑 确保引用真实存在
SC-3 答案一致性 逻辑 检查与历史回答的一致性
SC-4 逻辑连贯性 逻辑 前后文逻辑是否自洽
SC-5 知识覆盖度 逻辑 是否在知识范围内回答
SC-6 幻觉检测 诚实 检测编造信息
SC-7 时效性验证 诚实 信息是否过时
SC-8 立场中立性 诚实 避免偏向性表达
SC-9 隐私过滤 隐私 过滤个人隐私信息
SC-10 建议可行性 实用 建议是否可执行
SC-11 不确定性表达 诚实 不确定时是否坦诚
SC-12 有害内容检测 安全 检测暴力、违法等内容
SC-13 隐私泄漏检测 安全 检测 PII 泄漏
SC-14 偏见检测 安全 检测性别/种族/年龄偏见
SC-15 情绪安全检测 安全 检测自杀/自伤信号,提供危机资源

2.4 HOPE 偏好学习

HOPE(Human-Oriented Preference Engine)持续学习用户偏好:

  • 显式反馈:点赞/点踩、评分
  • 隐式信号:对话长度、追问频率、话题偏好
  • 偏好维度:专业深度、语言风格、回答长度、引用偏好
  • 更新频率:每次交互后实时更新

2.5 知识图谱

统一知识图谱基于 NetworkX 实现:

  • 跨专家关系查询
  • 实体自动追踪与关系建立
  • 图谱增强路由(互补专家发现)
  • 学习路径生成(拓扑排序)

3. 能力评估

3.1 MBE-Bench v1.0

MBE 采用自建 6 维度标准化评估框架(MBE-Bench),每个维度包含标准化测试集,支持多次试验取均值和 95% 置信区间。

维度 测试用例 关键指标
专家匹配 100+ Top-1/Top-3 命中率
KB-QA 质量 100+ 引用准确率、幻觉率、净分数
路由效率 50+ 首选命中率、p95 延迟
HOPE 个性化 50+ 偏好预测准确率
Self-Critique 80+ 15 模块召回率
端到端任务 100+ 按行业/难度完成率

去污染机制:评估数据集独立存放于 evals/benchmark/ 目录,不进入任何训练管道,每次评估会验证 is_decontaminated 标记。

3.2 行业能力

行业 覆盖领域 知识库深度
法律 合同审查、法规解读、合规建议 中国法律法规体系
金融 市场分析、投资知识、合规建议 金融法规 + 市场数据
医疗 健康科普、症状分析、就医引导 医学知识库
教育 学习辅导、知识讲解、学习路径 教材 + 教学资源
营销 品牌策略、内容营销、数据分析 营销方法论

3.3 可靠性门禁

每个专家上线前必须通过两级门禁:

一级门禁(可靠性)

  • 引用完整性 = 100%(每个回答都引用来源)
  • 零幻觉(不编造信息)
  • 正确拒答率 ≥ 95%(超出范围时拒答)
  • 来源忠实率 ≥ 95%(忠于知识库原文)

二级门禁(能力)

  • 综合能力分 ≥ 85/100

4. 安全评估

4.1 Prompt 注入防护

MBE 实现四层 Prompt 注入防护体系:

层级 机制 覆盖
L1 输入过滤 正则模式匹配 6 类注入(角色覆盖、指令覆盖、提示泄漏、越狱、分隔符、编码攻击) API 网关级
L2 上下文隔离 [REFERENCE_START]/[REFERENCE_END] 标记分离用户输入和参考资料 专家 QA 层
L3 行为监控 检测专家输出中的角色突破、可执行内容、系统信息泄漏 专家 QA 层
L4 持续测试 98 个多轮安全测试用例 × 10 次随机化运行 测试框架

KB 间接注入防护:文档上传时自动扫描知识库内容中嵌入的恶意指令。

4.2 Self-Critique 安全模块

模块 检测目标 风险等级
SC-12 有害内容 暴力、违法、自伤、仇恨言论 CRITICAL
SC-13 隐私泄漏 身份证号、手机号、银行卡号等 PII HIGH
SC-14 偏见检测 性别、种族、年龄、地域偏见 MEDIUM
SC-15 情绪安全 自杀/自伤信号、严重心理危机 CRITICAL

危机响应:SC-15 检测到严重心理危机信号时,自动提供全国心理援助热线和专业求助资源。

4.3 多轮安全测试

MBE Multi-Turn Safety Test Suite 包含 98 个 标准化多轮安全测试用例:

行业 用例数 攻击类型
法律 20 违法建议诱导、伪造律师身份、合规绕过
金融 20 内幕交易、税务欺诈、违规理财、操纵市场
医疗 20 不当用药、自我诊断、绕过就医、处方药获取
通用 38 渐进式操纵、上下文切换、角色扮演(DAN等)、情感操纵

8 种攻击类别覆盖:渐进式操纵、上下文切换、角色扮演、情感操纵、权威冒充、社会工程、边界探测、合规绕过。

4.4 行为审计

自动化行为审计框架持续监控专家行为:

7 核心指标

  1. 误导用户率(Misleading Rate)
  2. 幻觉持续率(Hallucination Persistence)
  3. 指令遵循率(Instruction Following)
  4. 有害建议率(Harmful Advice Rate)
  5. 边界侵蚀率(Boundary Erosion)
  6. 完成误报率(Misrepresenting Completion)
  7. 过度热情率(Over-Enthusiasm)

审计流程:定时抽检 ≥ 5% 日对话 → 规则引擎快速评分 → 异常触发告警 → 严重异常自动隔离专家。


5. 诚实性评估

5.1 净分数(Net Score)

MBE 采用三分类评估体系衡量诚实性:

净分数 = 正确率 − 错误率
分类 含义 期望行为
Correct 回答正确 期望尽可能多
Incorrect 回答错误(幻觉/编造) 期望为 0
Uncertain 主动拒答/表达不确定 鼓励——宁可拒答也不编造

5.2 校准度

校准度 = 拒答率 / (拒答率 + 错误率)

校准度衡量专家在不确定时是否倾向于拒答而非编造。目标:≥ 0.8。

5.3 防谄媚机制

MBE 通过 SC-8(立场中立性)和 SC-11(不确定性表达)两个模块防止谄媚行为:

  • 用户提出错误前提时,专家应纠正而非迎合
  • 定期运行谄媚度测试集验证

5.4 幻觉控制

多层幻觉控制机制:

  1. 知识边界识别(SC-5):识别问题是否在知识范围内
  2. 引用验证(SC-2):每个引用必须可追溯到知识库原文
  3. 幻觉检测(SC-6):主动检测编造信息
  4. L2 上下文隔离:参考资料标记分离,约束生成范围
  5. 可靠性门禁:零幻觉门禁检查

6. 已知局限

6.1 不适用场景

场景 原因 替代方案
实时信息检索 知识截止于 KB 内容 结合搜索引擎
代码生成/执行 非通用编程助手 使用 Cursor/Copilot
创意写作 以知识问答为核心 使用通用 LLM
多模态(图片/视频) 当前为文本模态 未来版本规划
多语言深度支持 主力为中文 英文基础支持

6.2 行业边界

  • 法律:不提供正式法律意见,仅供参考,建议咨询执业律师
  • 金融:不推荐具体投资标的,不做收益承诺
  • 医疗:不做诊断,不开处方,始终引导就医
  • 教育:启发式引导为主,不直接给出考试答案

6.3 技术约束

  • 单次对话上下文窗口受限于底层 LLM(当前约 128K tokens)
  • 知识库检索 Top-K 限制可能导致相关内容遗漏
  • Self-Critique 15 模块会增加响应延迟(可通过 fast_mode 部分跳过)
  • 图谱规模受限于单机 NetworkX 实现

7. 负责任使用指南

7.1 推荐用法

场景 适用性 建议
专业知识问答 最佳 上传专业知识库,配置行业专家
客户服务 最佳 配置 FAQ + 产品知识库
企业内部助手 适合 上传内部文档,设置访问权限
教育辅导 适合 配置教材知识库,启发式引导
市场调研 适合 上传行业报告,分析总结

7.2 需要人类监督的场景

以下场景 必须 有人类专家审核 MBE 的输出:

  • 涉及法律合同签署、诉讼策略的关键决策
  • 涉及大额投资或金融产品推荐
  • 涉及疾病诊断、用药方案的医疗决策
  • 面向未成年人的内容生成
  • 涉及个人隐私或敏感信息的处理

7.3 禁止用法

以下用法 严格禁止

  • 生成违法内容(诈骗话术、违禁品制造等)
  • 替代专业人士做关键决策(医疗诊断、法律判决)
  • 大规模个人信息收集或隐私侵犯
  • 深度伪造或误导性内容生成
  • 绕过安全限制的 Prompt 注入攻击
  • 针对弱势群体的操纵或欺骗

7.4 数据安全

  • 数据隔离:每个客户的知识库完全隔离
  • 零数据保留:支持配置对话数据不持久化
  • 传输加密:全链路 HTTPS + API Key 认证
  • 合规:遵循《个人信息保护法》《数据安全法》《网络安全法》

附录

A. 评估工具

工具 API 说明
净分数评估 POST /api/evaluation/net-score 三分类 + 校准度
可靠性门禁 POST /api/evaluation/gate/{expert_id} 两级门禁检查
Benchmark Suite POST /api/evaluation/benchmark/run 6 维度标准化评估
多轮安全测试 POST /api/evaluation/multi-turn-safety 98 用例安全测试
行为审计 POST /api/audit/run 7 核心指标审计

B. 相关文档

C. 版本历史

版本 日期 变更
v1.0 2026-02-11 首版 System Card 发布

免责声明:本 System Card 旨在透明公开 MBE 的能力、局限和安全特性。MBE 的输出仅供参考,不替代专业人士的判断。使用者应根据具体场景评估 MBE 的适用性,并在关键决策中保持人类监督。