MBE MOE 快速参考手册

🎯 什么是 MOE？

MOE (Mixture of Experts) = 混合专家模型

核心思想:

不是用一个大模型处理所有任务
而是用多个小专家，每个专家专注特定领域
动态路由：根据输入选择最合适的专家

类比: 就像医院里有不同科室的医生，病人会被分诊到最合适的科室

📊 MBE 中的 MOE 应用

总览

模块	专家数量	作用
TITANS MOE	12个	记忆读写和更新
MIRAS MOE	19个	多尺度检索匹配
检索增强	12个	迭代检索精化
总计	43个	完整的稀疏专家系统

详细分解

1. TITANS MOE (12个专家)

读取专家 (4个):
  ├─ 专家1: 精确匹配
  ├─ 专家2: 语义相似
  ├─ 专家3: 时序相关
  └─ 专家4: 情景关联

写入专家 (4个):
  ├─ 专家1: 覆盖式写入
  ├─ 专家2: 累加式写入
  ├─ 专家3: 选择性写入
  └─ 专家4: 压缩式写入

门控专家 (4个):
  └─ 动态决定更新策略

2. MIRAS MOE (19个专家)

局部尺度 (4个专家):
  └─ 捕获细粒度关键词

上下文尺度 (6个专家):
  └─ 理解场景背景

全局尺度 (9个专家):
  ├─ 8个领域专家
  └─ 1个共享专家

🔍 核心文件位置

文件	说明
`training/titans/moe_module.py`	MOE基础实现
`training/titans/titans_moe.py`	TITANS+MOE集成
`training/titans/miras_moe.py`	MIRAS+MOE集成
`src/knowledge/expert_router.py`	专家路由器
`training/train_moe.py`	MOE训练脚本

⚙️ 关键配置参数

MOE 基础配置

num_experts = 8          # 专家总数
top_k = 2               # 每次激活几个专家
hidden_dim = 512        # 隐藏层维度
expert_dim = 2048       # 专家FFN维度 (通常是4倍)
load_balance_weight = 0.01  # 负载均衡权重

TITANS 配置

num_memory_slots = 128      # 记忆槽数量
num_read_experts = 4        # 读取专家数
num_write_experts = 4       # 写入专家数

MIRAS 配置

num_local_experts = 4       # 局部专家
num_context_experts = 6     # 上下文专家
num_global_experts = 8      # 全局专家
num_shared_experts = 1      # 共享专家

🎯 工作原理

Top-K 路由机制

输入 → 路由器 → Top-K专家选择 → 专家处理 → 加权融合 → 输出
        ↓
    [专家1: 0.6]  ← 选中！
    [专家2: 0.3]  ← 选中！
    [专家3: 0.05]
    [专家4: 0.03]
    ...

稀疏激活优势

传统模型:

输入 → [所有参数都计算] → 输出
       (100% 计算量)

MOE 模型:

输入 → [只激活Top-K专家] → 输出
       (例如: 2/8 = 25% 计算量)

📈 性能优化技巧

1. 负载均衡

# 目标：让所有专家都被使用
# 方法：添加辅助损失
aux_loss = load_balance_weight * balance_loss(router_probs)
total_loss = main_loss + aux_loss

2. 容量控制

# 目标：防止某个专家过载
# 方法：限制每个专家处理的token数
capacity = capacity_factor * batch_size / num_experts

3. 路由噪声

# 目标：训练时增加探索
# 方法：添加随机噪声
router_noise = 0.1  # 训练时
router_noise = 0.0  # 推理时

🔧 如何调试 MOE

查看专家激活情况

# 在 moe_module.py 中添加日志
logger.info(f"Expert activation: {dispatch_indices}")
logger.info(f"Router probs: {router_probs}")

监控负载均衡

# 统计每个专家被选中的次数
expert_counts = torch.bincount(dispatch_indices.flatten())
logger.info(f"Expert usage: {expert_counts}")

检查路由分布

# 查看路由概率分布
mean_probs = router_probs.mean(dim=0)
logger.info(f"Mean routing probs: {mean_probs}")

🚀 实际使用示例

示例1: 专家匹配

# 用户问题
query = "如何制作披萨？"

# MIRAS多尺度匹配 (使用MOE)
scores = expert_router.match_expert(query)

# 输出
{
    "手工面包与披萨烘焙专家": 8.5,
    "意大利料理专家": 6.2,
    "烘焙入门专家": 4.8
}

示例2: 记忆检索

# TITANS读取记忆 (使用MOE)
# 自动选择最合适的读取专家
memory = titans.read_memory(query)

# Top-2专家被激活:
# - 专家1 (精确匹配): 权重 0.65
# - 专家2 (语义相似): 权重 0.35

📊 性能监控

关键指标

指标	说明	目标值
专家激活均衡度	各专家被选中的次数	接近平均
路由置信度	Top-1专家的概率	0.4-0.7
辅助损失	负载均衡损失	< 0.1
推理速度	每次调用时间	< 50ms

查看训练日志

# 查看MOE初始化
grep "MoE.*初始化" logs/app.log

# 输出示例：
# ✅ MoE 层初始化: 4 专家, Top-2 路由
# ✅ MIRAS+MoE 混合架构初始化完成
# 总专家数: 35

❓ 常见问题

Q1: 为什么要用MOE？

✅ 提高效率（稀疏激活）
✅ 增强专业性（专家分工）
✅ 易于扩展（增加专家）

Q2: Top-K 中的 K 如何选择？

K=1: 最省计算，但专业性最强
K=2: 平衡性能和多样性（推荐）
K>2: 计算量增加，多样性提升

Q3: 如何判断MOE是否工作正常？

A: 检查三点：

专家激活是否均衡
路由置信度是否合理
任务性能是否提升

Q4: MOE会增加多少计算量？

推理时: +5-10% (路由开销)
但实际处理: 只用25% (Top-2/8专家)
净效果: 节省约 60-70% 计算

🎓 进阶阅读

MBE 相关文档

📄 MOE_APPLICATION_ANALYSIS.md - 详细分析报告
📄 TITANS_MIRAS_ARCHITECTURE.md - 架构文档
📄 FAST_MODE_MIRAS_ANALYSIS.md - MIRAS分析

🔗 快速链接

🧠 训练MOE: training/train_moe.py
🔍 查看专家: src/knowledge/expert_router.py
📊 性能监控: 查看 logs/app.log
🐛 调试: 开启 logger.setLevel("DEBUG")

最后更新: 2026年1月31日
维护: MBE团队

MBE 文档中心

MBE MOE 快速参考手册

🎯 什么是 MOE？

📊 MBE 中的 MOE 应用

总览

详细分解

1. TITANS MOE (12个专家)

2. MIRAS MOE (19个专家)

🔍 核心文件位置

⚙️ 关键配置参数

MOE 基础配置

TITANS 配置

MIRAS 配置

🎯 工作原理

Top-K 路由机制

稀疏激活优势

📈 性能优化技巧

1. 负载均衡

2. 容量控制

3. 路由噪声

🔧 如何调试 MOE

查看专家激活情况

监控负载均衡

检查路由分布

🚀 实际使用示例

示例1: 专家匹配

示例2: 记忆检索

📊 性能监控

关键指标

查看训练日志

❓ 常见问题

Q1: 为什么要用MOE？

Q2: Top-K 中的 K 如何选择？

Q3: 如何判断MOE是否工作正常？

Q4: MOE会增加多少计算量？

🎓 进阶阅读

推荐论文

MBE 相关文档

🔗 快速链接