MBE Level 5 → Level 6 实施路线图
版本: v2.0
日期: 2026-02-10
v2.0 变更: 纳入离线 CoT(策略 C)作为阶段 A 第 4 条并行线,升级依赖矩阵为七大力量
一、路线策略:混合交织推进
核心原则:不是先 Level 5 再 Level 6(纯串行),也不是直接跳 Level 6(风险过高),而是 以 SCST 为主线,Level 6 独立模块并行推进。
时间 ─────────────────────────────────────────────────────────────────►
┌── 阶段 A (2-3w) ──┐┌── 阶段 B (2-3w) ──┐┌── 阶段 C (2-4w) ──┐
│ ││ ││ │
主线 │ SCST 基础框架 ││ 多维奖励升级 ││ 全协同闭环调优 │
(L5) │ 单维奖励 + 验证 ││ 8维+步骤级奖励 ││ 飞轮效应 + A/B │
│ ││ ││ │
并行 │ 探索策略全局化 ━━━━━━━━━━━━━━━►接入SCST ││ │
(L6) │ 因果推理纳入图谱 ━━━━━━━━━━━━━►接入SCST ││ │
│ 多智能体框架原型 ━━━━━━━━━━━━━━━━━━━━━━━━━►串联 │
│ 离线CoT框架搭建 ━━━━━━►步骤级奖励接入SCST ━━━►精准在线CoT │
│ ││ 智能路由×SCST ││ │
│ ││ Prompt优化×SCST ││ 模拟器×SCST │
└────────────────────┘└────────────────────┘└────────────────────┘
◄─── Level 5 达成 ──►◄───── Level 5+ ──────►◄─── Level 6 达成 ──►
CoT 策略: 在线不启用 CoT(零额外成本)
离线批量 CoT 重跑 → 步骤级奖励 → 喂 SCST 训练
阶段 C 后: Router 学会精准选择 → 可选择性在线启用
总预期时间:6-10 周(混合推进) vs 12-16 周(纯串行)
二、依赖关系矩阵
Level 6 七大力量对 SCST(Level 5 核心)的依赖程度分析:
| # | Level 6 力量 | 依赖 SCST? | 可并行先行? | 说明 |
|---|---|---|---|---|
| 1 | 多维评估信号 | 强依赖 ❌ | ✗ | 多维奖励函数是给 SCST 用的 |
| 2 | 智能路由优化 | 强依赖 ❌ | △ | 路由本身可用,但 SCST 优化需等 |
| 3 | 探索策略全局化 | 弱依赖 △ | ✓ | 全局化本身不需要 SCST |
| 4 | Prompt 自优化 | 弱依赖 △ | ✓ | 优化器已有,SCST 联动需等 |
| 5 | 多智能体协作 | 无依赖 ✓ | ✓ | 完全独立的新能力 |
| 6 | 因果推理+模拟 | 无依赖 ✓ | ✓ | 图谱扩展,不依赖 SCST |
| 7 | 离线 CoT 推理增强 | 弱依赖 △ | ✓ | 框架可独立搭建,步骤级奖励在阶段 B 接入 SCST |
关键发现:7 大力量中仅前 2 个强依赖 SCST,后 5 个可独立推进。
CoT 策略决策(策略 C:离线 CoT)
| 策略 | 在线成本 | SCST 训练质量 | 采用? |
|---|---|---|---|
| A. 等 SCST 训练好再启用 CoT | 🟢 零 | 🟡 答案级 | ✗ |
| B. 上线就全量 CoT | 🔴 2-3 倍 | 🟢 步骤级 | ✗ |
| C. 在线不用,离线训练时用 | 🟢 零 | 🟢 步骤级 | ✓ 采用 |
详见 MBE_COT_OFFLINE_STRATEGY.md。
三、为什么不直接跳 Level 6?
| 风险 | 说明 | 严重程度 |
|---|---|---|
| 调试困难 | 直接 8 维奖励 + 全模块联动,出问题无法定位是哪个维度/模块导致的 | 🔴 高 |
| 基线缺失 | 没有单维 SCST 基线,无法度量多维升级带来的增量收益 | 🔴 高 |
| SCST 本身有风险 | RL 训练不稳定是常见问题,先用简单设置验证可行性 | 🟡 中 |
| 权重不明确 | 不知道 8 个维度的权重应该如何配比,需先有单维数据做参照 | 🟡 中 |
| 资源浪费 | 如果 SCST 基础框架有问题,所有 Level 6 的 SCST 集成工作都要返工 | 🟡 中 |
四、为什么不纯粹先 Level 5 再 Level 6?
| 原因 | 说明 | 浪费程度 |
|---|---|---|
| 时间浪费 | 探索策略、因果推理、多智能体完全不依赖 SCST,等 SCST 做完再开始是浪费 | 🔴 高(+4-6w) |
| Level 5 本身不完整 | 单维 SCST 训练效果有限,尽早拿到多维信号才能让 SCST 真正发挥威力 | 🟡 中 |
| 缺少协同验证 | 阶段 B 需要阶段 A 并行成果(如探索策略结果直接喂 SCST 奖励函数) | 🟡 中 |
| 团队闲置 | 等 SCST 验证期间,其他模块的开发力量被搁置 | 🟡 中 |
五、阶段 A:SCST 基础 + 独立模块并行(2-3 周)
5.1 主线:SCST 基础框架
目标:验证 SCST 在 MBE 中可行
| 任务 | 优先级 | 预期时间 | 关键产出 |
|---|---|---|---|
| SCST 训练 Pipeline 搭建 | P0 | 3-5 天 | 基础训练循环:采样→评分→对比→梯度更新 |
| Self-Critique 评分接口统一 | P0 | 2-3 天 | 11 个 Critique 模块输出统一的 [0,1] 评分 |
| 单维奖励函数实现 | P0 | 1-2 天 | reward = critique(sample) - critique(greedy) |
| 在 1-2 个专家上验证 | P0 | 3-5 天 | 证明 SCST 训练后回答质量有提升 |
| 训练稳定性调优 | P1 | 2-3 天 | 学习率、采样温度、baseline 平滑 |
# 阶段 A 核心代码目标
class SCSTrainer:
"""SCST 基础训练器"""
def train_step(self, input_batch):
# 1. 贪心解码(baseline)
greedy_output = self.model.generate(input_batch, do_sample=False)
greedy_score = self.critique_ensemble.score(greedy_output)
# 2. 采样解码
sample_output = self.model.generate(input_batch, do_sample=True)
sample_score = self.critique_ensemble.score(sample_output)
# 3. REINFORCE 奖励
reward = sample_score - greedy_score # 单维奖励
# 4. 策略梯度更新
loss = -reward * log_prob(sample_output)
loss.backward()
验收标准:
- SCST 训练 pipeline 端到端跑通
- 在测试专家上,SCST 训练后 Self-Critique 平均分提升 ≥5%
- 训练过程稳定(reward 不震荡)
5.2 并行线 1:探索策略全局化
目标:将 exploration_strategy.py 从专家推荐扩展到全系统
| 任务 | 预期时间 | 产出 |
|---|---|---|
| 抽象 ExplorationStrategy 接口 | 2 天 | 通用接口,支持 ε-greedy/UCB/Thompson |
| LLM 路由探索 | 2 天 | Smart Router 使用 UCB 选模型 |
| 检索策略探索 | 2 天 | MIRAS 检索步骤使用 ε-greedy 尝试新策略 |
| Prompt 模板探索 | 1 天 | Auto Prompt Optimizer 探索新模板 |
| 探索结果记录 | 1 天 | 每次探索结果写入 TITANS 记忆 + 知识图谱 |
验收标准:
- 三个场景(路由/检索/Prompt)支持探索策略
- 探索日志可追溯
- 阶段 B 可直接作为 SCST 奖励信号接入
5.3 并行线 2:因果推理纳入知识图谱
目标:图谱新增因果推理能力
| 任务 | 预期时间 | 产出 |
|---|---|---|
| 新增 CAUSES 边类型 | 1 天 | 知识图谱支持因果关系 |
| 因果链查询 API | 2 天 | get_causal_chain(entity) |
| 因果推理集成 MIRAS | 2 天 | 检索时考虑因果路径 |
| 法律领域因果数据导入 | 2 天 | 合同违约→赔偿、侵权→责任 等因果链 |
验收标准:
- 图谱支持因果边的增删查
- MIRAS 检索可利用因果路径增强结果
5.4 并行线 3:多智能体协作框架原型
目标:实现多专家协同回答
| 任务 | 预期时间 | 产出 |
|---|---|---|
| AgentOrchestrator 编排层 | 3 天 | 编排多个专家协作回答 |
| 图谱驱动的 Agent 选择 | 2 天 | 知识图谱判断需要哪些专家协作 |
| 跨 Agent 一致性验证 | 2 天 | Self-Critique 检验多 Agent 回答不矛盾 |
| 结果融合策略 | 2 天 | 多专家回答的智能合并 |
验收标准:
- 跨领域问题可触发多 Agent 协作
- 协作回答比单 Agent 回答质量更高(人工评估)
5.5 并行线 4:离线 CoT 框架(策略 C)
目标:搭建离线 CoT 批量处理框架,为 SCST 提供步骤级奖励信号
策略:在线服务不启用 CoT(零额外成本),离线批量 CoT 重跑训练数据
| 任务 | 预期时间 | 产出 |
|---|---|---|
| CoT Prompt 模板设计 | 2 天 | Self-Critique/Evaluator/PathGen 三套 CoT Prompt |
| 在线交互日志记录管道 | 1 天 | 问题+答案+评分 → 训练数据库 |
| 离线 CoT 批量重跑框架 | 3 天 | OfflineCoTTrainer 每日/每周自动抽样重跑 |
| 步骤级奖励提取器 | 2 天 | CoTRewardExtractor 从推理链提取每步评分 |
| 抽样策略实现 | 1 天 | 优先复杂问题、低分问题,排除简单问答 |
# 离线 CoT 核心流程
class OfflineCoTTrainer:
async def daily_batch(self):
# 1. 从在线日志抽样(优先复杂/低分问题)
samples = self.db.sample_interactions(
n=200, strategy='priority_complex'
)
# 2. CoT 模式重跑
for sample in samples:
cot_output = await self.llm.generate(
prompt=sample.question,
system=COT_CRITIQUE_PROMPT # 要求逐步推理
)
# 3. 提取步骤级奖励
rewards = self.extractor.extract(cot_output)
# 4. 存入 SCST 训练数据
self.training_db.store(sample, cot_output, rewards)
验收标准:
- 离线 CoT 批量框架可每日自动运行
- 步骤级奖励可被提取(每步评分 + 最弱环节识别)
- 离线成本可控(≤$2/天@200 条抽样)
- 阶段 B 可直接将步骤级奖励接入 SCST 多维奖励函数
六、阶段 B:SCST 升级 + 系统整合(2-3 周)
6.1 多维奖励函数(P0)
前置条件:阶段 A 主线完成(SCST 基础可用)
| 任务 | 预期时间 | 产出 |
|---|---|---|
| Answer Evaluator 6 维评分接入 | 2 天 | 准确性/可溯源/相关性/完整性/清晰度/无幻觉 |
| 隐式反馈信号接入 | 1 天 | 情感/参与度/清晰度隐式信号 |
| 信任分/价值评估接入 | 1 天 | expert_trust_score + value_assessor |
| 合规性评分接入 | 1 天 | compliance_checker 评分 |
| 成本/延迟惩罚项 | 1 天 | token 成本 + 响应延迟 |
| 帕累托权重调优 | 3 天 | 网格搜索/贝叶斯优化找最优权重 |
# 阶段 B 核心升级
class MultiDimensionalReward:
"""8 维帕累托奖励"""
WEIGHTS = {
'self_critique': 0.25, # 质量验证
'answer_evaluator': 0.20, # 6维评估
'trust_score': 0.15, # 信任分变化
'value_assessment': 0.15, # 效用价值
'implicit_feedback': 0.10, # 隐式行为信号
'compliance': 0.05, # 合规性
'cost_penalty': -0.05, # 成本效率
'latency_penalty': -0.05, # 响应速度
}
def compute(self, sample_output, greedy_output, context):
reward = 0.0
for dim, weight in self.WEIGHTS.items():
sample_score = self.scorers[dim].score(sample_output, context)
greedy_score = self.scorers[dim].score(greedy_output, context)
reward += weight * (sample_score - greedy_score)
return reward
6.2 智能路由 × SCST(P0)
| 任务 | 预期时间 | 产出 |
|---|---|---|
| Smart Router 决策纳入 SCST 训练 | 2 天 | SCST 学习"什么问题用什么模型" |
| 成本/延迟→奖励函数集成 | 1 天 | 自动控成本控速度 |
| TITANS 记忆路由模式 | 2 天 | 同类问题直接调用最优路由 |
6.3 Prompt 优化 × SCST(P1)
| 任务 | 预期时间 | 产出 |
|---|---|---|
| SCST 训练数据→Prompt 改进规则 | 2 天 | 从训练发现的模式自动生成 Prompt 优化建议 |
| TITANS 记忆最优 Prompt | 2 天 | 每个领域/场景记忆最有效的 Prompt 模板 |
| 知识图谱 Prompt 映射 | 1 天 | "问题类型 → 最优 Prompt" 结构化映射 |
6.4 阶段 A 并行成果接入 SCST
| 任务 | 预期时间 | 产出 |
|---|---|---|
| 探索策略结果→SCST 奖励 | 1 天 | 探索成功/失败纳入奖励信号 |
| 因果推理准确性→SCST 奖励 | 1 天 | 因果链正确性纳入评分 |
| 离线 CoT 步骤级奖励→SCST | 2 天 | 步骤正确性 + 推理连贯性纳入多维奖励函数 |
6.5 多维奖励函数升级(含 CoT 步骤级)
# 阶段 B 升级版:9 维帕累托奖励(含 CoT 步骤级)
WEIGHTS = {
'self_critique': 0.20, # 质量验证
'answer_evaluator': 0.18, # 6维评估
'cot_step_accuracy': 0.12, # ★ CoT 步骤正确性(新增)
'cot_coherence': 0.05, # ★ CoT 推理连贯性(新增)
'trust_score': 0.12, # 信任分变化
'value_assessment': 0.12, # 效用价值
'implicit_feedback': 0.08, # 隐式行为信号
'compliance': 0.05, # 合规性
'cost_penalty': -0.04, # 成本效率
'latency_penalty': -0.04, # 响应速度
}
阶段 B 验收标准:
- 多维奖励显著优于单维奖励(A/B 测试验证)
- 模型选择成本降低 ≥15%
- Prompt 优化后回答质量提升 ≥5%
七、阶段 C:全协同闭环(2-4 周)
7.1 全模块串联
| 任务 | 预期时间 | 产出 |
|---|---|---|
| 9 维信号→7 层同步进化验证 | 3 天 | 每次交互触发全链路信号流 |
| 多智能体 × SCST | 3 天 | SCST 学习"何时多 Agent vs 单 Agent" |
| 企业家模拟器 × SCST | 3 天 | 模拟结果准确性纳入训练 |
| CoT 精准在线启用 | 3 天 | Router 学会选择→高收益问题在线启用 CoT |
| 飞轮效应调优 | 5 天 | 系统级参数协同调优 |
| A/B 测试全量验证 | 3 天 | Level 5 vs Level 6 全面对比(含 CoT/无 CoT 对比) |
7.2 稳定性与回归
| 任务 | 预期时间 | 产出 |
|---|---|---|
| 回归用例全覆盖 | 2 天 | Level 6 新功能回归测试 |
| 性能基准测试 | 2 天 | 延迟/吞吐量/资源占用基准 |
| 灾备验证 | 1 天 | Level 6 组件故障降级策略 |
阶段 C 验收标准:
- Level 6 vs Level 5 所有关键指标均有提升
- 系统延迟增加不超过 20%
- 故障降级到 Level 5 秒级切换
- 连续运行 7 天无重大故障
八、关键里程碑
Week 0 ──── 项目启动
│
Week 1 ──── SCST Pipeline 搭建完成 + 离线 CoT 框架搭建
│
Week 2 ──── ★ 里程碑 1: SCST 单维训练验证通过
│ 同时:探索策略/因果推理/多Agent/离线CoT 原型完成
│ 离线 CoT 开始每日批量运行,积累步骤级奖励数据
│
Week 3 ──── ★ 里程碑 2: Level 5 达成(SCST 基础可用)
│
Week 4 ──── 多维奖励函数完成(含 CoT 步骤级奖励)+ 智能路由接入
│
Week 5 ──── ★ 里程碑 3: 9维 SCST > 单维 SCST(A/B 验证)
│
Week 6 ──── 全模块串联 + 并行成果接入
│
Week 7 ──── 飞轮效应调优 + CoT 精准在线启用(Router 选择)
│
Week 8 ──── ★ 里程碑 4: Level 6 达成(全协同闭环验证通过)
│
Week 9-10 ── 稳定性/回归/性能 · 正式发布
九、风险与应对
| 风险 | 概率 | 影响 | 应对 |
|---|---|---|---|
| SCST 训练不稳定 | 🟡 中 | 🔴 高 | 采用 PPO 替代 REINFORCE;增大 batch size |
| 多维奖励权重难以调优 | 🟡 中 | 🟡 中 | 先用均等权重上线,后续贝叶斯优化 |
| 多智能体协作增加延迟 | 🟢 低 | 🟡 中 | 并行调用 + 超时兜底 + 缓存 |
| 探索策略导致质量波动 | 🟡 中 | 🟡 中 | 探索率从 5% 起步,逐步提升 |
| 全协同闭环调试困难 | 🟡 中 | 🔴 高 | 每个模块有独立开关(Feature Flags) |
| 资源不足无法并行 | 🟡 中 | 🟡 中 | 优先主线,并行线按 P 排序裁剪 |
| 离线 CoT 步骤解析不稳定 | 🟡 中 | 🟡 中 | 规范化 CoT 输出格式 + 容错解析 |
| 离线 CoT 成本超预算 | 🟢 低 | 🟢 低 | 调整抽样比例(20%→10%),优先高价值样本 |
十、资源需求估算
10.1 理想配置(全速并行)
| 角色 | 人数 | 职责 |
|---|---|---|
| ML 工程师 | 2 | SCST Pipeline + 多维奖励 + 训练调优 |
| 后端工程师 | 2 | 探索策略全局化 + 因果推理 + 多Agent 框架 |
| 全栈工程师 | 1 | 智能路由集成 + Prompt 优化联动 + API |
| 测试/DevOps | 1 | A/B 测试 + 回归 + 性能基准 |
10.2 最小配置(串行优先)
| 角色 | 人数 | 调整 |
|---|---|---|
| ML 工程师 | 1 | 主线 SCST,并行线延后 |
| 后端工程师 | 1 | 按 P0→P1→P2 顺序推进 |
| 总时间 | +4 周 | 约 10-14 周 |
十一、度量指标
11.1 阶段 A 结束时(Level 5 基线)
| 指标 | 当前值 | 目标值 |
|---|---|---|
| QA 幻觉率 | ~8% | ≤5% |
| Self-Critique 平均分 | 基准 | +5% |
| 路径首次通过率 | ~40% | ≥55% |
11.2 阶段 B 结束时(Level 5+)
| 指标 | Level 5 基线 | 目标值 |
|---|---|---|
| QA 幻觉率 | ≤5% | ≤3% |
| 模型选择成本 | 基准 | -15% |
| Prompt 优化后质量 | 基准 | +5% |
| 多维奖励 vs 单维 | - | 多维显著优于单维 |
11.3 阶段 C 结束时(Level 6)
| 指标 | Level 5+ | 目标值 |
|---|---|---|
| QA 幻觉率 | ≤3% | <1% |
| 路径首次通过率 | ≥55% | >90% |
| 专家路由准确率 | ~88% | >96% |
| 用户满意度 | 4.2/5 | 4.7/5+ |
| 成本效率 | -15% | -30% |
| 跨领域问题解决率 | 中 | 强 |
十二、相关文档
| 文档 | 说明 |
|---|---|
| MBE_LEVEL6_FULL_SYNERGY_ANALYSIS.md | Level 6 全协同能力分析(七大力量详述) |
| MBE_COT_OFFLINE_STRATEGY.md | CoT 分析与离线训练策略(策略 C) |
| MBE_SCST_ENGINE_WIDE_ENHANCEMENT.md | SCST 提升全引擎能力研究 |
| MBE_SELF_CRITICAL_SEQUENCE_APPLICATIONS.md | Self-Critique 应用与增强 |
| MBE_CORE_LOOP_OPTIMIZATION_PLAN.md | 核心闭环优化计划(实施参考) |
十三、总结
策略: SCST 主线 + Level 6 独立模块并行 → 交织推进
CoT 策略: 策略 C — 在线不用(零成本),离线批量 CoT 训练 SCST
时间: 6-10 周(vs 纯串行 12-16 周)
核心风控: SCST 先验证、逐步叠加、Feature Flags、A/B 对比
阶段 A → Level 5 达成 + 4 个 Level 6 模块就绪(含离线 CoT)
阶段 B → 9维 SCST(含步骤级奖励)+ 路由/Prompt 集成 → Level 5+
阶段 C → 全模块串联 + CoT 精准在线启用 + 飞轮调优 → Level 6 达成
本路线图的核心思想:SCST 是 Level 5→6 的脊柱,但不是所有 Level 6 能力都长在这根脊柱上。独立的四肢(探索、因果、多Agent、Prompt 优化)可以在脊柱成型的同时并行生长,然后在阶段 B/C 接入,形成完整的 Level 6 有机体。离线 CoT 是脊柱的神经系统——在不增加在线成本的前提下,为 SCST 提供从"答案级"到"步骤级"的精细奖励信号升级。
文档版本: v2.0
更新日期: 2026-02-10