MBE 术语表(Glossary)
30+ 核心术语的统一定义 — 面向开发者、运营者和产品经理
A
API Key
用于身份认证的密钥字符串。每个客户/环境应使用独立 Key,通过 HTTP 请求头 X-API-Key 传递。
Audit(行为审计)
MBE 自动化行为审计框架,持续监控专家输出,通过 7 核心指标 + 8 行业指标检测异常行为。参见 行为审计框架。
AuditVerdict(审计裁决)
行为审计的最终判定结果。四个等级:PASS(通过)、WARNING(警告)、FAIL(不通过)、QUARANTINE(隔离)。
B
Benchmark Suite(评估基准套件)
MBE 6 维度综合评估框架,覆盖专业知识准确度、幻觉控制率、安全合规率、知识库引用率、响应质量和行为一致性。参见 Benchmark。
Boundary Erosion(边界侵蚀)
行为审计核心指标之一。指专家逐渐超出其被定义的专业范围,回答不应回答的问题的倾向。
C
Calibration Score(校准分数)
衡量专家置信度与实际准确度之间一致性的指标。完美校准 = 1.0,即"说 80% 确定时,确实 80% 正确"。
Chroma
MBE 使用的向量数据库,用于存储和检索知识库文档的嵌入向量。
Conversation(对话)
用户与专家之间的一次完整交互。可以是单轮(一问一答)或多轮(连续问答,共享上下文)。
D
DAN 模式
"Do Anything Now" 的缩写,一种常见的 LLM 越狱攻击方式。MBE 的 L1 输入过滤和多轮安全测试框架专门防御此类攻击。
E
Expert(专家)
MBE 的核心实体。一个专家 = 定义提示词 + 知识库 + Self-Critique 配置 + HOPE 偏好。每个专家服务于特定的行业或用途。
Expert Definition Prompt(专家定义提示词)
定义专家身份、专业领域、行为边界和回答风格的系统级提示词。是构建专家的第一步。
Evaluation Gate(评估门禁)
专家发布流程中的自动检查点,通过预设的评估用例验证专家质量。只有通过门禁的专家才能上线。
G
Getting Started(入门指南)
面向所有用户角色的统一入门文档。参见 Getting Started。
H
Hallucination(幻觉)
专家生成的与知识库内容不一致或完全编造的信息。MBE 通过 SC-2(知识库检索匹配)和 Hallucination Persistence 指标进行检测和控制。
Hallucination Persistence(幻觉持续率)
行为审计核心指标之一。衡量专家在被指出错误后是否仍然坚持错误说法的比率。
HOPE(Hyper-personalized Optimization for Preference-aligned Expertise)
MBE 的超个性化偏好学习模块。通过隐式信号(如对话长度、满意度评分)学习用户偏好,渐进式调整专家回答风格。
I
Instruction Following(指令遵循率)
行为审计核心指标之一。衡量专家是否严格遵循用户在对话中给出的明确指示。
K
Knowledge Base / KB(知识库)
为专家提供参考资料的文档集合。支持 PDF、Word、TXT、Markdown 等格式。通过向量化存储于 Chroma,在对话时进行语义检索。
KB Indirect Injection(知识库间接注入)
一种攻击方式,在上传到知识库的文档中嵌入恶意指令,试图通过知识库检索间接操纵专家行为。MBE 的 L1 层专门扫描此类攻击。
L
LLM(Large Language Model,大语言模型)
MBE 底层使用的 AI 模型(如 GPT-4、Claude、通义千问等)。MBE 在 LLM 之上构建安全、评估和个性化层。
LoopEventBus(循环事件总线)
MBE 内部的异步事件系统,用于模块间解耦通信(如行为审计触发专家隔离事件 expert_quarantined)。
M
MBE(Mises Behavior Engine,米塞斯行为引擎)
基于奥地利经济学派人类行为学理论的 AI 决策分析系统。核心设计理念是"每个人类行为都是目的导向的"。
MIRAS(Multi-dimensional Intelligent Response Analysis System)
MBE 的多维智能响应分析系统,将 Self-Critique 检查结果整合为结构化质量报告。
Misleading Rate(误导率)
行为审计核心指标之一。衡量专家回答中包含虽然不完全错误但可能误导用户的信息比例。
Multi-Turn Safety Test(多轮安全测试)
MBE 的自动化安全测试框架,模拟 8 类攻击(渐进式操纵、角色扮演、情感操纵等),覆盖 4 个行业,包含 98 个标准化测试用例。
N
Net Score(净分数)
MBE 的核心评估指标:Net Score = correct_rate - incorrect_rate。范围 [-1, +1],负分表示错误多于正确,应立即下线。
O
Operator(运营者)
MBE 平台的企业用户角色,负责创建专家、管理知识库、配置评估和查看审计结果。
Over-Enthusiasm(过度热情)
行为审计核心指标之一。衡量专家是否在缺乏足够证据时过于积极地给出建议或承诺。
P
PII(Personally Identifiable Information,个人可识别信息)
可直接或间接识别个人身份的数据(身份证号、手机号、银行卡号等)。MBE 的 SC-13 模块自动检测和脱敏 PII。
Prompt Injection(提示注入)
一种攻击方式,通过在用户输入中嵌入恶意指令试图覆盖系统提示词。MBE 实现 L1-L4 四层防护体系。
Q
Quarantine(隔离)
当行为审计检测到严重异常(CRITICAL 级)时,自动禁用专家的机制。被隔离的专家需要人工审核后才能恢复。
R
Regression Test(回归测试)
审计框架自动累积的失败案例集,作为后续版本升级的回归验证基准。
S
Self-Critique(自我批评)
MBE 内建的 15 模块质量检查体系,覆盖幻觉检测、来源验证、情感分析、安全检查、偏见检测等。每次专家回答前自动运行。
| 编号 | 模块 | 功能 |
|---|---|---|
| SC-1 | 幻觉检测 | 检测生成内容是否与知识库一致 |
| SC-2 | 来源引用 | 强制引用知识库原文 |
| SC-3 | 不确定性表达 | 要求在不确定时明确声明 |
| SC-4 | 情感/语气分析 | 分析用户情感状态 |
| SC-5 | 复杂度评估 | 评估问题难度 |
| SC-6 | 行业合规 | 行业特定规则检查 |
| SC-7 | 知识边界 | 检测是否超出专业范围 |
| SC-8 | 时效性验证 | 检查信息是否过时 |
| SC-9 | 多语言质量 | 翻译质量检查 |
| SC-10 | 对话连贯性 | 多轮对话上下文一致性 |
| SC-11 | 用户意图 | 理解真实用户需求 |
| SC-12 | 有害内容 | 暴力、违法、自伤、仇恨言论 |
| SC-13 | 隐私泄漏 | PII 检测与脱敏 |
| SC-14 | 偏见检测 | 性别/种族/年龄/地域偏见 |
| SC-15 | 情绪安全 | 自杀/自伤信号、心理危机 |
System Card(系统卡片)
MBE 的正式产品透明度报告,记录系统能力、安全性、诚实性、局限性和负责任使用指南。参见 System Card。
T
TITANS(TITANS Memory)
MBE 使用的记忆增强机制,帮助专家在多轮对话中保持上下文连贯性和长期记忆能力。
Three-Class Evaluation(三分类评估)
MBE 的评估方法论基础:将每个回答分为「正确」「错误」「我不知道」三类,而非传统二分法。这使得"诚实地说不知道"成为有价值的行为。
Z
Zero Data Retention(零数据保留)
MBE 提供的高安全模式,对话内容在回答后立即清除,不持久化到数据库。适用于对数据安全有极高要求的企业客户。
📖 术语表会随产品迭代持续更新。如有术语建议,请提交 Issue。