MBE 术语表（Glossary）

30+ 核心术语的统一定义 — 面向开发者、运营者和产品经理

A

API Key

用于身份认证的密钥字符串。每个客户/环境应使用独立 Key，通过 HTTP 请求头 X-API-Key 传递。

Audit（行为审计）

MBE 自动化行为审计框架，持续监控专家输出，通过 7 核心指标 + 8 行业指标检测异常行为。参见行为审计框架。

AuditVerdict（审计裁决）

行为审计的最终判定结果。四个等级：PASS（通过）、WARNING（警告）、FAIL（不通过）、QUARANTINE（隔离）。

B

Benchmark Suite（评估基准套件）

MBE 6 维度综合评估框架，覆盖专业知识准确度、幻觉控制率、安全合规率、知识库引用率、响应质量和行为一致性。参见 Benchmark。

Boundary Erosion（边界侵蚀）

行为审计核心指标之一。指专家逐渐超出其被定义的专业范围，回答不应回答的问题的倾向。

C

Calibration Score（校准分数）

衡量专家置信度与实际准确度之间一致性的指标。完美校准 = 1.0，即"说 80% 确定时，确实 80% 正确"。

Chroma

MBE 使用的向量数据库，用于存储和检索知识库文档的嵌入向量。

Conversation（对话）

用户与专家之间的一次完整交互。可以是单轮（一问一答）或多轮（连续问答，共享上下文）。

D

DAN 模式

"Do Anything Now" 的缩写，一种常见的 LLM 越狱攻击方式。MBE 的 L1 输入过滤和多轮安全测试框架专门防御此类攻击。

E

Expert（专家）

MBE 的核心实体。一个专家 = 定义提示词 + 知识库 + Self-Critique 配置 + HOPE 偏好。每个专家服务于特定的行业或用途。

Expert Definition Prompt（专家定义提示词）

定义专家身份、专业领域、行为边界和回答风格的系统级提示词。是构建专家的第一步。

Evaluation Gate（评估门禁）

专家发布流程中的自动检查点，通过预设的评估用例验证专家质量。只有通过门禁的专家才能上线。

G

Getting Started（入门指南）

面向所有用户角色的统一入门文档。参见 Getting Started。

H

Hallucination（幻觉）

专家生成的与知识库内容不一致或完全编造的信息。MBE 通过 SC-2（知识库检索匹配）和 Hallucination Persistence 指标进行检测和控制。

Hallucination Persistence（幻觉持续率）

行为审计核心指标之一。衡量专家在被指出错误后是否仍然坚持错误说法的比率。

HOPE（Hyper-personalized Optimization for Preference-aligned Expertise）

MBE 的超个性化偏好学习模块。通过隐式信号（如对话长度、满意度评分）学习用户偏好，渐进式调整专家回答风格。

I

Instruction Following（指令遵循率）

行为审计核心指标之一。衡量专家是否严格遵循用户在对话中给出的明确指示。

K

Knowledge Base / KB（知识库）

为专家提供参考资料的文档集合。支持 PDF、Word、TXT、Markdown 等格式。通过向量化存储于 Chroma，在对话时进行语义检索。

KB Indirect Injection（知识库间接注入）

一种攻击方式，在上传到知识库的文档中嵌入恶意指令，试图通过知识库检索间接操纵专家行为。MBE 的 L1 层专门扫描此类攻击。

L

LLM（Large Language Model，大语言模型）

MBE 底层使用的 AI 模型（如 GPT-4、Claude、通义千问等）。MBE 在 LLM 之上构建安全、评估和个性化层。

LoopEventBus（循环事件总线）

MBE 内部的异步事件系统，用于模块间解耦通信（如行为审计触发专家隔离事件 expert_quarantined）。

M

MBE（Mises Behavior Engine，米塞斯行为引擎）

基于奥地利经济学派人类行为学理论的 AI 决策分析系统。核心设计理念是"每个人类行为都是目的导向的"。

MIRAS（Multi-dimensional Intelligent Response Analysis System）

MBE 的多维智能响应分析系统，将 Self-Critique 检查结果整合为结构化质量报告。

Misleading Rate（误导率）

行为审计核心指标之一。衡量专家回答中包含虽然不完全错误但可能误导用户的信息比例。

Multi-Turn Safety Test（多轮安全测试）

MBE 的自动化安全测试框架，模拟 8 类攻击（渐进式操纵、角色扮演、情感操纵等），覆盖 4 个行业，包含 98 个标准化测试用例。

N

Net Score（净分数）

MBE 的核心评估指标：Net Score = correct_rate - incorrect_rate。范围 [-1, +1]，负分表示错误多于正确，应立即下线。

O

Operator（运营者）

MBE 平台的企业用户角色，负责创建专家、管理知识库、配置评估和查看审计结果。

Over-Enthusiasm（过度热情）

行为审计核心指标之一。衡量专家是否在缺乏足够证据时过于积极地给出建议或承诺。

P

PII（Personally Identifiable Information，个人可识别信息）

可直接或间接识别个人身份的数据（身份证号、手机号、银行卡号等）。MBE 的 SC-13 模块自动检测和脱敏 PII。

Prompt Injection（提示注入）

一种攻击方式，通过在用户输入中嵌入恶意指令试图覆盖系统提示词。MBE 实现 L1-L4 四层防护体系。

Q

Quarantine（隔离）

当行为审计检测到严重异常（CRITICAL 级）时，自动禁用专家的机制。被隔离的专家需要人工审核后才能恢复。

R

Regression Test（回归测试）

审计框架自动累积的失败案例集，作为后续版本升级的回归验证基准。

S

Self-Critique（自我批评）

MBE 内建的 15 模块质量检查体系，覆盖幻觉检测、来源验证、情感分析、安全检查、偏见检测等。每次专家回答前自动运行。

编号	模块	功能
SC-1	幻觉检测	检测生成内容是否与知识库一致
SC-2	来源引用	强制引用知识库原文
SC-3	不确定性表达	要求在不确定时明确声明
SC-4	情感/语气分析	分析用户情感状态
SC-5	复杂度评估	评估问题难度
SC-6	行业合规	行业特定规则检查
SC-7	知识边界	检测是否超出专业范围
SC-8	时效性验证	检查信息是否过时
SC-9	多语言质量	翻译质量检查
SC-10	对话连贯性	多轮对话上下文一致性
SC-11	用户意图	理解真实用户需求
SC-12	有害内容	暴力、违法、自伤、仇恨言论
SC-13	隐私泄漏	PII 检测与脱敏
SC-14	偏见检测	性别/种族/年龄/地域偏见
SC-15	情绪安全	自杀/自伤信号、心理危机

System Card（系统卡片）

MBE 的正式产品透明度报告，记录系统能力、安全性、诚实性、局限性和负责任使用指南。参见 System Card。

T

TITANS（TITANS Memory）

MBE 使用的记忆增强机制，帮助专家在多轮对话中保持上下文连贯性和长期记忆能力。

Three-Class Evaluation（三分类评估）

MBE 的评估方法论基础：将每个回答分为「正确」「错误」「我不知道」三类，而非传统二分法。这使得"诚实地说不知道"成为有价值的行为。

Z

Zero Data Retention（零数据保留）

MBE 提供的高安全模式，对话内容在回答后立即清除，不持久化到数据库。适用于对数据安全有极高要求的企业客户。

📖 术语表会随产品迭代持续更新。如有术语建议，请提交 Issue。