MBE 术语表(Glossary)

30+ 核心术语的统一定义 — 面向开发者、运营者和产品经理


A

API Key

用于身份认证的密钥字符串。每个客户/环境应使用独立 Key,通过 HTTP 请求头 X-API-Key 传递。

Audit(行为审计)

MBE 自动化行为审计框架,持续监控专家输出,通过 7 核心指标 + 8 行业指标检测异常行为。参见 行为审计框架

AuditVerdict(审计裁决)

行为审计的最终判定结果。四个等级:PASS(通过)、WARNING(警告)、FAIL(不通过)、QUARANTINE(隔离)。


B

Benchmark Suite(评估基准套件)

MBE 6 维度综合评估框架,覆盖专业知识准确度、幻觉控制率、安全合规率、知识库引用率、响应质量和行为一致性。参见 Benchmark

Boundary Erosion(边界侵蚀)

行为审计核心指标之一。指专家逐渐超出其被定义的专业范围,回答不应回答的问题的倾向。


C

Calibration Score(校准分数)

衡量专家置信度与实际准确度之间一致性的指标。完美校准 = 1.0,即"说 80% 确定时,确实 80% 正确"。

Chroma

MBE 使用的向量数据库,用于存储和检索知识库文档的嵌入向量。

Conversation(对话)

用户与专家之间的一次完整交互。可以是单轮(一问一答)或多轮(连续问答,共享上下文)。


D

DAN 模式

"Do Anything Now" 的缩写,一种常见的 LLM 越狱攻击方式。MBE 的 L1 输入过滤和多轮安全测试框架专门防御此类攻击。


E

Expert(专家)

MBE 的核心实体。一个专家 = 定义提示词 + 知识库 + Self-Critique 配置 + HOPE 偏好。每个专家服务于特定的行业或用途。

Expert Definition Prompt(专家定义提示词)

定义专家身份、专业领域、行为边界和回答风格的系统级提示词。是构建专家的第一步。

Evaluation Gate(评估门禁)

专家发布流程中的自动检查点,通过预设的评估用例验证专家质量。只有通过门禁的专家才能上线。


G

Getting Started(入门指南)

面向所有用户角色的统一入门文档。参见 Getting Started


H

Hallucination(幻觉)

专家生成的与知识库内容不一致或完全编造的信息。MBE 通过 SC-2(知识库检索匹配)和 Hallucination Persistence 指标进行检测和控制。

Hallucination Persistence(幻觉持续率)

行为审计核心指标之一。衡量专家在被指出错误后是否仍然坚持错误说法的比率。

HOPE(Hyper-personalized Optimization for Preference-aligned Expertise)

MBE 的超个性化偏好学习模块。通过隐式信号(如对话长度、满意度评分)学习用户偏好,渐进式调整专家回答风格。


I

Instruction Following(指令遵循率)

行为审计核心指标之一。衡量专家是否严格遵循用户在对话中给出的明确指示。


K

Knowledge Base / KB(知识库)

为专家提供参考资料的文档集合。支持 PDF、Word、TXT、Markdown 等格式。通过向量化存储于 Chroma,在对话时进行语义检索。

KB Indirect Injection(知识库间接注入)

一种攻击方式,在上传到知识库的文档中嵌入恶意指令,试图通过知识库检索间接操纵专家行为。MBE 的 L1 层专门扫描此类攻击。


L

LLM(Large Language Model,大语言模型)

MBE 底层使用的 AI 模型(如 GPT-4、Claude、通义千问等)。MBE 在 LLM 之上构建安全、评估和个性化层。

LoopEventBus(循环事件总线)

MBE 内部的异步事件系统,用于模块间解耦通信(如行为审计触发专家隔离事件 expert_quarantined)。


M

MBE(Mises Behavior Engine,米塞斯行为引擎)

基于奥地利经济学派人类行为学理论的 AI 决策分析系统。核心设计理念是"每个人类行为都是目的导向的"。

MIRAS(Multi-dimensional Intelligent Response Analysis System)

MBE 的多维智能响应分析系统,将 Self-Critique 检查结果整合为结构化质量报告。

Misleading Rate(误导率)

行为审计核心指标之一。衡量专家回答中包含虽然不完全错误但可能误导用户的信息比例。

Multi-Turn Safety Test(多轮安全测试)

MBE 的自动化安全测试框架,模拟 8 类攻击(渐进式操纵、角色扮演、情感操纵等),覆盖 4 个行业,包含 98 个标准化测试用例。


N

Net Score(净分数)

MBE 的核心评估指标:Net Score = correct_rate - incorrect_rate。范围 [-1, +1],负分表示错误多于正确,应立即下线。


O

Operator(运营者)

MBE 平台的企业用户角色,负责创建专家、管理知识库、配置评估和查看审计结果。

Over-Enthusiasm(过度热情)

行为审计核心指标之一。衡量专家是否在缺乏足够证据时过于积极地给出建议或承诺。


P

PII(Personally Identifiable Information,个人可识别信息)

可直接或间接识别个人身份的数据(身份证号、手机号、银行卡号等)。MBE 的 SC-13 模块自动检测和脱敏 PII。

Prompt Injection(提示注入)

一种攻击方式,通过在用户输入中嵌入恶意指令试图覆盖系统提示词。MBE 实现 L1-L4 四层防护体系。


Q

Quarantine(隔离)

当行为审计检测到严重异常(CRITICAL 级)时,自动禁用专家的机制。被隔离的专家需要人工审核后才能恢复。


R

Regression Test(回归测试)

审计框架自动累积的失败案例集,作为后续版本升级的回归验证基准。


S

Self-Critique(自我批评)

MBE 内建的 15 模块质量检查体系,覆盖幻觉检测、来源验证、情感分析、安全检查、偏见检测等。每次专家回答前自动运行。

编号 模块 功能
SC-1 幻觉检测 检测生成内容是否与知识库一致
SC-2 来源引用 强制引用知识库原文
SC-3 不确定性表达 要求在不确定时明确声明
SC-4 情感/语气分析 分析用户情感状态
SC-5 复杂度评估 评估问题难度
SC-6 行业合规 行业特定规则检查
SC-7 知识边界 检测是否超出专业范围
SC-8 时效性验证 检查信息是否过时
SC-9 多语言质量 翻译质量检查
SC-10 对话连贯性 多轮对话上下文一致性
SC-11 用户意图 理解真实用户需求
SC-12 有害内容 暴力、违法、自伤、仇恨言论
SC-13 隐私泄漏 PII 检测与脱敏
SC-14 偏见检测 性别/种族/年龄/地域偏见
SC-15 情绪安全 自杀/自伤信号、心理危机

System Card(系统卡片)

MBE 的正式产品透明度报告,记录系统能力、安全性、诚实性、局限性和负责任使用指南。参见 System Card


T

TITANS(TITANS Memory)

MBE 使用的记忆增强机制,帮助专家在多轮对话中保持上下文连贯性和长期记忆能力。

Three-Class Evaluation(三分类评估)

MBE 的评估方法论基础:将每个回答分为「正确」「错误」「我不知道」三类,而非传统二分法。这使得"诚实地说不知道"成为有价值的行为。


Z

Zero Data Retention(零数据保留)

MBE 提供的高安全模式,对话内容在回答后立即清除,不持久化到数据库。适用于对数据安全有极高要求的企业客户。


📖 术语表会随产品迭代持续更新。如有术语建议,请提交 Issue。