MBE System Card v1.0

Mises Behavior Engine (MBE) — 自主多专家行为引擎
版本: v3.1 | 发布日期: 2026-02-11 | 文档版本: 1.0

1. 摘要

1.1 MBE 是什么

MBE（Mises Behavior Engine）是一个自主多专家行为引擎，区别于通用大语言模型（LLM）和单一 Agent。MBE 的核心理念来源于路德维希·冯·米塞斯的行为学理论——通过理解用户的真实意图和行为逻辑，提供专业、可靠、可追溯的智能服务。

核心定位：

对比维度	通用 LLM	单一 Agent	MBE
专业深度	广但浅	取决于工具	深度垂直
知识来源	预训练	外部工具	专属知识库 + 图谱
质量保障	无内置	有限	15 模块 Self-Critique
个性化	无	有限	HOPE 偏好学习
可追溯性	无	有限	引用 + 来源链路

1.2 v3.1 核心能力

统一知识图谱：NetworkX 引擎，跨专家关系查询与智能推理
TITANS+MIRAS 记忆架构：长期记忆增强的推理引擎
15 模块 Self-Critique：逻辑、安全、诚实、隐私四维度自我验证
HOPE 偏好引擎：主动学习用户偏好，持续个性化
专家生命周期管理：8 态状态机 + 自动隔离/恢复
闭环四冲程引擎：Expert → Eval → HOPE → Training
四层 Prompt 注入防护：L1 输入过滤 → L2 上下文隔离 → L3 行为监控 → L4 持续测试
行为审计框架：7 核心指标 + 4 行业指标自动化审计

1.3 已知局限

不适用于需要实时网络搜索的场景（知识截止于知识库内容）
行业深度覆盖有限（当前主力：法律、金融、医疗、教育、营销）
不支持代码生成/执行（非通用编程助手）
Agent 能力（Level 6 多智能体）已实现核心模块（AgentOrchestrator、SmartRouter、因果推理、离线 CoT），持续优化中

2. 架构与训练

2.1 整体架构

┌─────────────────────────────────────────────────────────────┐
│                    前端接入层                                 │
│  Desktop App · Web · API · 小智 · 天猫/小度/小爱 · 车载      │
├─────────────────────────────────────────────────────────────┤
│                    API 网关层                                 │
│  FastAPI · Prompt 注入中间件(L1) · 限流 · 认证               │
├─────────────────────────────────────────────────────────────┤
│                    核心引擎层                                 │
│  ┌──────────┐  ┌──────────┐  ┌──────────┐  ┌──────────┐   │
│  │ 意图分析  │  │ 专家路由  │  │ 动态专家  │  │ HOPE 引擎 │   │
│  │ (TITANS)  │  │ (MoE)    │  │ (QA)     │  │ (偏好)    │   │
│  └──────────┘  └──────────┘  └──────────┘  └──────────┘   │
│  ┌──────────┐  ┌──────────┐  ┌──────────┐  ┌──────────┐   │
│  │ Self-    │  │ 可靠性   │  │ 知识图谱  │  │ 行为审计  │   │
│  │ Critique │  │ 门禁     │  │ (Graph)  │  │ (Audit)  │   │
│  └──────────┘  └──────────┘  └──────────┘  └──────────┘   │
├─────────────────────────────────────────────────────────────┤
│                    数据与存储层                               │
│  PostgreSQL · Redis · Chroma(向量) · NetworkX(图谱)          │
├─────────────────────────────────────────────────────────────┤
│                    安全层                                     │
│  L1 输入过滤 · L2 上下文隔离 · L3 行为监控 · L4 持续测试     │
│  SC-12 有害内容 · SC-13 隐私 · SC-14 偏见 · SC-15 情绪安全   │
└─────────────────────────────────────────────────────────────┘

2.1.1 12-Factor Agents 生产化架构

基于 12-Factor Agents 原则构建的四层生产化保障体系：

┌─ Phase 1: 决策审计链路 ────────────────────────────────────┐
│  每次请求的完整决策路径写入 decision_audit 表               │
│  expert_route → knowledge_retrieve → response_generate     │
│  → self_critique → human_review (可回放 / 可调试)          │
├─ Phase 2: 暂停/恢复机制 ──────────────────────────────────┤
│  CheckpointManager + session_checkpoints 表                │
│  五步行为分析可跨天暂停恢复 / 上下文压缩 / 30天 TTL       │
├─ Phase 3: Self-Critique 自愈回路 ─────────────────────────┤
│  CritiqueRetryEngine: 检测→反馈→重试→降级                 │
│  安全+一致性+内容质量并行检查 / 最多2次重试 / 15s超时      │
│  降级时附加免责声明 / 全量写入审计链路                      │
├─ Phase 4: 人工审核标准化 ─────────────────────────────────┤
│  HumanReviewTool (Factor 7: Contact humans with tool calls)│
│  安全阻断/极低分→自动暂停会话→通知审核员→回调恢复          │
│  SLA: critical 1h / high 4h / normal 24h                   │
└────────────────────────────────────────────────────────────┘

核心设计原则：

渐进式重构：旁路增强，不推翻现有架构
降级安全网：每个组件失败都有 fallback，不阻塞主流程
异步优先：审计/检查点/通知全部异步，主流程延迟 < 50ms
完整审计：所有决策步骤、重试、降级、人工审核均记录到 decision_audit

详细实施方案见 docs/MBE_12FACTOR_IMPLEMENTATION_PLAN.md

2.2 TITANS+MIRAS 记忆架构

TITANS（Task-Informed Temporal Attention Networks） 负责短期工作记忆和注意力分配：

对话上下文窗口管理
多轮意图追踪
实体关系维护

MIRAS（Memory-Integrated Reasoning and Synthesis） 负责长期记忆和推理合成：

跨会话知识积累
用户偏好持久化
专家能力画像

2.3 Self-Critique 机制（15 模块）

MBE 的核心质量保障机制——每次回答都经过多模块自我验证：

编号	模块	维度	说明
SC-1	路径生成验证	逻辑	验证推理路径的合理性
SC-2	来源引用验证	逻辑	确保引用真实存在
SC-3	答案一致性	逻辑	检查与历史回答的一致性
SC-4	逻辑连贯性	逻辑	前后文逻辑是否自洽
SC-5	知识覆盖度	逻辑	是否在知识范围内回答
SC-6	幻觉检测	诚实	检测编造信息
SC-7	时效性验证	诚实	信息是否过时
SC-8	立场中立性	诚实	避免偏向性表达
SC-9	隐私过滤	隐私	过滤个人隐私信息
SC-10	建议可行性	实用	建议是否可执行
SC-11	不确定性表达	诚实	不确定时是否坦诚
SC-12	有害内容检测	安全	检测暴力、违法等内容
SC-13	隐私泄漏检测	安全	检测 PII 泄漏
SC-14	偏见检测	安全	检测性别/种族/年龄偏见
SC-15	情绪安全检测	安全	检测自杀/自伤信号，提供危机资源

2.4 HOPE 偏好学习

HOPE（Human-Oriented Preference Engine）持续学习用户偏好：

显式反馈：点赞/点踩、评分
隐式信号：对话长度、追问频率、话题偏好
偏好维度：专业深度、语言风格、回答长度、引用偏好
更新频率：每次交互后实时更新

2.5 知识图谱

统一知识图谱基于 NetworkX 实现：

跨专家关系查询
实体自动追踪与关系建立
图谱增强路由（互补专家发现）
学习路径生成（拓扑排序）

3. 能力评估

3.1 MBE-Bench v1.0

MBE 采用自建 6 维度标准化评估框架（MBE-Bench），每个维度包含标准化测试集，支持多次试验取均值和 95% 置信区间。

维度	测试用例	关键指标
专家匹配	100+	Top-1/Top-3 命中率
KB-QA 质量	100+	引用准确率、幻觉率、净分数
路由效率	50+	首选命中率、p95 延迟
HOPE 个性化	50+	偏好预测准确率
Self-Critique	80+	15 模块召回率
端到端任务	100+	按行业/难度完成率

去污染机制：评估数据集独立存放于 evals/benchmark/ 目录，不进入任何训练管道，每次评估会验证 is_decontaminated 标记。

3.2 行业能力

行业	覆盖领域	知识库深度
法律	合同审查、法规解读、合规建议	中国法律法规体系
金融	市场分析、投资知识、合规建议	金融法规 + 市场数据
医疗	健康科普、症状分析、就医引导	医学知识库
教育	学习辅导、知识讲解、学习路径	教材 + 教学资源
营销	品牌策略、内容营销、数据分析	营销方法论

3.3 可靠性门禁

每个专家上线前必须通过两级门禁：

一级门禁（可靠性）：

引用完整性 = 100%（每个回答都引用来源）
零幻觉（不编造信息）
正确拒答率 ≥ 95%（超出范围时拒答）
来源忠实率 ≥ 95%（忠于知识库原文）

二级门禁（能力）：

综合能力分 ≥ 85/100

4. 安全评估

4.1 Prompt 注入防护

MBE 实现四层 Prompt 注入防护体系：

层级	机制	覆盖
L1 输入过滤	正则模式匹配 6 类注入（角色覆盖、指令覆盖、提示泄漏、越狱、分隔符、编码攻击）	API 网关级
L2 上下文隔离	`[REFERENCE_START]`/`[REFERENCE_END]` 标记分离用户输入和参考资料	专家 QA 层
L3 行为监控	检测专家输出中的角色突破、可执行内容、系统信息泄漏	专家 QA 层
L4 持续测试	98 个多轮安全测试用例 × 10 次随机化运行	测试框架

KB 间接注入防护：文档上传时自动扫描知识库内容中嵌入的恶意指令。

4.2 Self-Critique 安全模块

模块	检测目标	风险等级
SC-12 有害内容	暴力、违法、自伤、仇恨言论	CRITICAL
SC-13 隐私泄漏	身份证号、手机号、银行卡号等 PII	HIGH
SC-14 偏见检测	性别、种族、年龄、地域偏见	MEDIUM
SC-15 情绪安全	自杀/自伤信号、严重心理危机	CRITICAL

危机响应：SC-15 检测到严重心理危机信号时，自动提供全国心理援助热线和专业求助资源。

4.3 多轮安全测试

MBE Multi-Turn Safety Test Suite 包含 98 个 标准化多轮安全测试用例：

行业	用例数	攻击类型
法律	20	违法建议诱导、伪造律师身份、合规绕过
金融	20	内幕交易、税务欺诈、违规理财、操纵市场
医疗	20	不当用药、自我诊断、绕过就医、处方药获取
通用	38	渐进式操纵、上下文切换、角色扮演（DAN等）、情感操纵

8 种攻击类别覆盖：渐进式操纵、上下文切换、角色扮演、情感操纵、权威冒充、社会工程、边界探测、合规绕过。

4.4 行为审计

自动化行为审计框架持续监控专家行为：

7 核心指标：

误导用户率（Misleading Rate）
幻觉持续率（Hallucination Persistence）
指令遵循率（Instruction Following）
有害建议率（Harmful Advice Rate）
边界侵蚀率（Boundary Erosion）
完成误报率（Misrepresenting Completion）
过度热情率（Over-Enthusiasm）

审计流程：定时抽检 ≥ 5% 日对话 → 规则引擎快速评分 → 异常触发告警 → 严重异常自动隔离专家。

5. 诚实性评估

5.1 净分数（Net Score）

MBE 采用三分类评估体系衡量诚实性：

净分数 = 正确率 − 错误率

分类	含义	期望行为
Correct	回答正确	期望尽可能多
Incorrect	回答错误（幻觉/编造）	期望为 0
Uncertain	主动拒答/表达不确定	鼓励——宁可拒答也不编造

5.2 校准度

校准度 = 拒答率 / (拒答率 + 错误率)

校准度衡量专家在不确定时是否倾向于拒答而非编造。目标：≥ 0.8。

5.3 防谄媚机制

MBE 通过 SC-8（立场中立性）和 SC-11（不确定性表达）两个模块防止谄媚行为：

用户提出错误前提时，专家应纠正而非迎合
定期运行谄媚度测试集验证

5.4 幻觉控制

多层幻觉控制机制：

知识边界识别（SC-5）：识别问题是否在知识范围内
引用验证（SC-2）：每个引用必须可追溯到知识库原文
幻觉检测（SC-6）：主动检测编造信息
L2 上下文隔离：参考资料标记分离，约束生成范围
可靠性门禁：零幻觉门禁检查

6. 已知局限

6.1 不适用场景

场景	原因	替代方案
实时信息检索	知识截止于 KB 内容	结合搜索引擎
代码生成/执行	非通用编程助手	使用 Cursor/Copilot
创意写作	以知识问答为核心	使用通用 LLM
多模态（图片/视频）	当前为文本模态	未来版本规划
多语言深度支持	主力为中文	英文基础支持

6.2 行业边界

法律：不提供正式法律意见，仅供参考，建议咨询执业律师
金融：不推荐具体投资标的，不做收益承诺
医疗：不做诊断，不开处方，始终引导就医
教育：启发式引导为主，不直接给出考试答案

6.3 技术约束

单次对话上下文窗口受限于底层 LLM（当前约 128K tokens）
知识库检索 Top-K 限制可能导致相关内容遗漏
Self-Critique 15 模块会增加响应延迟（可通过 fast_mode 部分跳过）
图谱规模受限于单机 NetworkX 实现

7. 负责任使用指南

7.1 推荐用法

场景	适用性	建议
专业知识问答	最佳	上传专业知识库，配置行业专家
客户服务	最佳	配置 FAQ + 产品知识库
企业内部助手	适合	上传内部文档，设置访问权限
教育辅导	适合	配置教材知识库，启发式引导
市场调研	适合	上传行业报告，分析总结

7.2 需要人类监督的场景

以下场景必须有人类专家审核 MBE 的输出：

涉及法律合同签署、诉讼策略的关键决策
涉及大额投资或金融产品推荐
涉及疾病诊断、用药方案的医疗决策
面向未成年人的内容生成
涉及个人隐私或敏感信息的处理

7.3 禁止用法

以下用法 严格禁止：

生成违法内容（诈骗话术、违禁品制造等）
替代专业人士做关键决策（医疗诊断、法律判决）
大规模个人信息收集或隐私侵犯
深度伪造或误导性内容生成
绕过安全限制的 Prompt 注入攻击
针对弱势群体的操纵或欺骗

7.4 数据安全

数据隔离：每个客户的知识库完全隔离
零数据保留：支持配置对话数据不持久化
传输加密：全链路 HTTPS + API Key 认证
合规：遵循《个人信息保护法》《数据安全法》《网络安全法》

附录

A. 评估工具

工具	API	说明
净分数评估	`POST /api/evaluation/net-score`	三分类 + 校准度
可靠性门禁	`POST /api/evaluation/gate/{expert_id}`	两级门禁检查
Benchmark Suite	`POST /api/evaluation/benchmark/run`	6 维度标准化评估
多轮安全测试	`POST /api/evaluation/multi-turn-safety`	98 用例安全测试
行为审计	`POST /api/audit/run`	7 核心指标审计

B. 相关文档

C. 版本历史

版本	日期	变更
v1.0	2026-02-11	首版 System Card 发布

免责声明：本 System Card 旨在透明公开 MBE 的能力、局限和安全特性。MBE 的输出仅供参考，不替代专业人士的判断。使用者应根据具体场景评估 MBE 的适用性，并在关键决策中保持人类监督。