MBE Level 5 → Level 6 实施路线图

版本: v2.0
日期: 2026-02-10
v2.0 变更: 纳入离线 CoT(策略 C)作为阶段 A 第 4 条并行线,升级依赖矩阵为七大力量


一、路线策略:混合交织推进

核心原则:不是先 Level 5 再 Level 6(纯串行),也不是直接跳 Level 6(风险过高),而是 以 SCST 为主线,Level 6 独立模块并行推进

时间    ─────────────────────────────────────────────────────────────────►

        ┌── 阶段 A (2-3w) ──┐┌── 阶段 B (2-3w) ──┐┌── 阶段 C (2-4w) ──┐
        │                    ││                    ││                    │
主线    │  SCST 基础框架      ││  多维奖励升级       ││  全协同闭环调优     │
(L5)    │  单维奖励 + 验证    ││  8维+步骤级奖励     ││  飞轮效应 + A/B    │
        │                    ││                    ││                    │
并行    │  探索策略全局化 ━━━━━━━━━━━━━━━►接入SCST   ││                    │
(L6)    │  因果推理纳入图谱 ━━━━━━━━━━━━━►接入SCST   ││                    │
        │  多智能体框架原型 ━━━━━━━━━━━━━━━━━━━━━━━━━►串联              │
        │  离线CoT框架搭建 ━━━━━━►步骤级奖励接入SCST ━━━►精准在线CoT      │
        │                    ││  智能路由×SCST      ││                    │
        │                    ││  Prompt优化×SCST    ││  模拟器×SCST       │
        └────────────────────┘└────────────────────┘└────────────────────┘

        ◄─── Level 5 达成 ──►◄───── Level 5+ ──────►◄─── Level 6 达成 ──►

CoT 策略: 在线不启用 CoT(零额外成本)
          离线批量 CoT 重跑 → 步骤级奖励 → 喂 SCST 训练
          阶段 C 后: Router 学会精准选择 → 可选择性在线启用

总预期时间:6-10 周(混合推进) vs 12-16 周(纯串行)


二、依赖关系矩阵

Level 6 七大力量对 SCST(Level 5 核心)的依赖程度分析:

# Level 6 力量 依赖 SCST? 可并行先行? 说明
1 多维评估信号 强依赖 多维奖励函数是给 SCST 用的
2 智能路由优化 强依赖 路由本身可用,但 SCST 优化需等
3 探索策略全局化 弱依赖 △ 全局化本身不需要 SCST
4 Prompt 自优化 弱依赖 △ 优化器已有,SCST 联动需等
5 多智能体协作 无依赖 ✓ 完全独立的新能力
6 因果推理+模拟 无依赖 ✓ 图谱扩展,不依赖 SCST
7 离线 CoT 推理增强 弱依赖 框架可独立搭建,步骤级奖励在阶段 B 接入 SCST

关键发现:7 大力量中仅前 2 个强依赖 SCST,后 5 个可独立推进。

CoT 策略决策(策略 C:离线 CoT)

策略 在线成本 SCST 训练质量 采用?
A. 等 SCST 训练好再启用 CoT 🟢 零 🟡 答案级
B. 上线就全量 CoT 🔴 2-3 倍 🟢 步骤级
C. 在线不用,离线训练时用 🟢 零 🟢 步骤级 ✓ 采用

详见 MBE_COT_OFFLINE_STRATEGY.md


三、为什么不直接跳 Level 6?

风险 说明 严重程度
调试困难 直接 8 维奖励 + 全模块联动,出问题无法定位是哪个维度/模块导致的 🔴 高
基线缺失 没有单维 SCST 基线,无法度量多维升级带来的增量收益 🔴 高
SCST 本身有风险 RL 训练不稳定是常见问题,先用简单设置验证可行性 🟡 中
权重不明确 不知道 8 个维度的权重应该如何配比,需先有单维数据做参照 🟡 中
资源浪费 如果 SCST 基础框架有问题,所有 Level 6 的 SCST 集成工作都要返工 🟡 中

四、为什么不纯粹先 Level 5 再 Level 6?

原因 说明 浪费程度
时间浪费 探索策略、因果推理、多智能体完全不依赖 SCST,等 SCST 做完再开始是浪费 🔴 高(+4-6w)
Level 5 本身不完整 单维 SCST 训练效果有限,尽早拿到多维信号才能让 SCST 真正发挥威力 🟡 中
缺少协同验证 阶段 B 需要阶段 A 并行成果(如探索策略结果直接喂 SCST 奖励函数) 🟡 中
团队闲置 等 SCST 验证期间,其他模块的开发力量被搁置 🟡 中

五、阶段 A:SCST 基础 + 独立模块并行(2-3 周)

5.1 主线:SCST 基础框架

目标:验证 SCST 在 MBE 中可行

任务 优先级 预期时间 关键产出
SCST 训练 Pipeline 搭建 P0 3-5 天 基础训练循环:采样→评分→对比→梯度更新
Self-Critique 评分接口统一 P0 2-3 天 11 个 Critique 模块输出统一的 [0,1] 评分
单维奖励函数实现 P0 1-2 天 reward = critique(sample) - critique(greedy)
在 1-2 个专家上验证 P0 3-5 天 证明 SCST 训练后回答质量有提升
训练稳定性调优 P1 2-3 天 学习率、采样温度、baseline 平滑
# 阶段 A 核心代码目标
class SCSTrainer:
    """SCST 基础训练器"""
    
    def train_step(self, input_batch):
        # 1. 贪心解码(baseline)
        greedy_output = self.model.generate(input_batch, do_sample=False)
        greedy_score = self.critique_ensemble.score(greedy_output)
        
        # 2. 采样解码
        sample_output = self.model.generate(input_batch, do_sample=True)
        sample_score = self.critique_ensemble.score(sample_output)
        
        # 3. REINFORCE 奖励
        reward = sample_score - greedy_score  # 单维奖励
        
        # 4. 策略梯度更新
        loss = -reward * log_prob(sample_output)
        loss.backward()

验收标准

  • SCST 训练 pipeline 端到端跑通
  • 在测试专家上,SCST 训练后 Self-Critique 平均分提升 ≥5%
  • 训练过程稳定(reward 不震荡)

5.2 并行线 1:探索策略全局化

目标:将 exploration_strategy.py 从专家推荐扩展到全系统

任务 预期时间 产出
抽象 ExplorationStrategy 接口 2 天 通用接口,支持 ε-greedy/UCB/Thompson
LLM 路由探索 2 天 Smart Router 使用 UCB 选模型
检索策略探索 2 天 MIRAS 检索步骤使用 ε-greedy 尝试新策略
Prompt 模板探索 1 天 Auto Prompt Optimizer 探索新模板
探索结果记录 1 天 每次探索结果写入 TITANS 记忆 + 知识图谱

验收标准

  • 三个场景(路由/检索/Prompt)支持探索策略
  • 探索日志可追溯
  • 阶段 B 可直接作为 SCST 奖励信号接入

5.3 并行线 2:因果推理纳入知识图谱

目标:图谱新增因果推理能力

任务 预期时间 产出
新增 CAUSES 边类型 1 天 知识图谱支持因果关系
因果链查询 API 2 天 get_causal_chain(entity)
因果推理集成 MIRAS 2 天 检索时考虑因果路径
法律领域因果数据导入 2 天 合同违约→赔偿、侵权→责任 等因果链

验收标准

  • 图谱支持因果边的增删查
  • MIRAS 检索可利用因果路径增强结果

5.4 并行线 3:多智能体协作框架原型

目标:实现多专家协同回答

任务 预期时间 产出
AgentOrchestrator 编排层 3 天 编排多个专家协作回答
图谱驱动的 Agent 选择 2 天 知识图谱判断需要哪些专家协作
跨 Agent 一致性验证 2 天 Self-Critique 检验多 Agent 回答不矛盾
结果融合策略 2 天 多专家回答的智能合并

验收标准

  • 跨领域问题可触发多 Agent 协作
  • 协作回答比单 Agent 回答质量更高(人工评估)

5.5 并行线 4:离线 CoT 框架(策略 C)

目标:搭建离线 CoT 批量处理框架,为 SCST 提供步骤级奖励信号

策略:在线服务不启用 CoT(零额外成本),离线批量 CoT 重跑训练数据

任务 预期时间 产出
CoT Prompt 模板设计 2 天 Self-Critique/Evaluator/PathGen 三套 CoT Prompt
在线交互日志记录管道 1 天 问题+答案+评分 → 训练数据库
离线 CoT 批量重跑框架 3 天 OfflineCoTTrainer 每日/每周自动抽样重跑
步骤级奖励提取器 2 天 CoTRewardExtractor 从推理链提取每步评分
抽样策略实现 1 天 优先复杂问题、低分问题,排除简单问答
# 离线 CoT 核心流程
class OfflineCoTTrainer:
    async def daily_batch(self):
        # 1. 从在线日志抽样(优先复杂/低分问题)
        samples = self.db.sample_interactions(
            n=200, strategy='priority_complex'
        )
        # 2. CoT 模式重跑
        for sample in samples:
            cot_output = await self.llm.generate(
                prompt=sample.question,
                system=COT_CRITIQUE_PROMPT  # 要求逐步推理
            )
            # 3. 提取步骤级奖励
            rewards = self.extractor.extract(cot_output)
            # 4. 存入 SCST 训练数据
            self.training_db.store(sample, cot_output, rewards)

验收标准

  • 离线 CoT 批量框架可每日自动运行
  • 步骤级奖励可被提取(每步评分 + 最弱环节识别)
  • 离线成本可控(≤$2/天@200 条抽样)
  • 阶段 B 可直接将步骤级奖励接入 SCST 多维奖励函数

六、阶段 B:SCST 升级 + 系统整合(2-3 周)

6.1 多维奖励函数(P0)

前置条件:阶段 A 主线完成(SCST 基础可用)

任务 预期时间 产出
Answer Evaluator 6 维评分接入 2 天 准确性/可溯源/相关性/完整性/清晰度/无幻觉
隐式反馈信号接入 1 天 情感/参与度/清晰度隐式信号
信任分/价值评估接入 1 天 expert_trust_score + value_assessor
合规性评分接入 1 天 compliance_checker 评分
成本/延迟惩罚项 1 天 token 成本 + 响应延迟
帕累托权重调优 3 天 网格搜索/贝叶斯优化找最优权重
# 阶段 B 核心升级
class MultiDimensionalReward:
    """8 维帕累托奖励"""
    
    WEIGHTS = {
        'self_critique':    0.25,  # 质量验证
        'answer_evaluator': 0.20,  # 6维评估
        'trust_score':      0.15,  # 信任分变化
        'value_assessment': 0.15,  # 效用价值
        'implicit_feedback': 0.10, # 隐式行为信号
        'compliance':       0.05,  # 合规性
        'cost_penalty':    -0.05,  # 成本效率
        'latency_penalty': -0.05,  # 响应速度
    }
    
    def compute(self, sample_output, greedy_output, context):
        reward = 0.0
        for dim, weight in self.WEIGHTS.items():
            sample_score = self.scorers[dim].score(sample_output, context)
            greedy_score = self.scorers[dim].score(greedy_output, context)
            reward += weight * (sample_score - greedy_score)
        return reward

6.2 智能路由 × SCST(P0)

任务 预期时间 产出
Smart Router 决策纳入 SCST 训练 2 天 SCST 学习"什么问题用什么模型"
成本/延迟→奖励函数集成 1 天 自动控成本控速度
TITANS 记忆路由模式 2 天 同类问题直接调用最优路由

6.3 Prompt 优化 × SCST(P1)

任务 预期时间 产出
SCST 训练数据→Prompt 改进规则 2 天 从训练发现的模式自动生成 Prompt 优化建议
TITANS 记忆最优 Prompt 2 天 每个领域/场景记忆最有效的 Prompt 模板
知识图谱 Prompt 映射 1 天 "问题类型 → 最优 Prompt" 结构化映射

6.4 阶段 A 并行成果接入 SCST

任务 预期时间 产出
探索策略结果→SCST 奖励 1 天 探索成功/失败纳入奖励信号
因果推理准确性→SCST 奖励 1 天 因果链正确性纳入评分
离线 CoT 步骤级奖励→SCST 2 天 步骤正确性 + 推理连贯性纳入多维奖励函数

6.5 多维奖励函数升级(含 CoT 步骤级)

# 阶段 B 升级版:9 维帕累托奖励(含 CoT 步骤级)
WEIGHTS = {
    'self_critique':       0.20,  # 质量验证
    'answer_evaluator':    0.18,  # 6维评估
    'cot_step_accuracy':   0.12,  # ★ CoT 步骤正确性(新增)
    'cot_coherence':       0.05,  # ★ CoT 推理连贯性(新增)
    'trust_score':         0.12,  # 信任分变化
    'value_assessment':    0.12,  # 效用价值
    'implicit_feedback':   0.08,  # 隐式行为信号
    'compliance':          0.05,  # 合规性
    'cost_penalty':       -0.04,  # 成本效率
    'latency_penalty':    -0.04,  # 响应速度
}

阶段 B 验收标准

  • 多维奖励显著优于单维奖励(A/B 测试验证)
  • 模型选择成本降低 ≥15%
  • Prompt 优化后回答质量提升 ≥5%

七、阶段 C:全协同闭环(2-4 周)

7.1 全模块串联

任务 预期时间 产出
9 维信号→7 层同步进化验证 3 天 每次交互触发全链路信号流
多智能体 × SCST 3 天 SCST 学习"何时多 Agent vs 单 Agent"
企业家模拟器 × SCST 3 天 模拟结果准确性纳入训练
CoT 精准在线启用 3 天 Router 学会选择→高收益问题在线启用 CoT
飞轮效应调优 5 天 系统级参数协同调优
A/B 测试全量验证 3 天 Level 5 vs Level 6 全面对比(含 CoT/无 CoT 对比)

7.2 稳定性与回归

任务 预期时间 产出
回归用例全覆盖 2 天 Level 6 新功能回归测试
性能基准测试 2 天 延迟/吞吐量/资源占用基准
灾备验证 1 天 Level 6 组件故障降级策略

阶段 C 验收标准

  • Level 6 vs Level 5 所有关键指标均有提升
  • 系统延迟增加不超过 20%
  • 故障降级到 Level 5 秒级切换
  • 连续运行 7 天无重大故障

八、关键里程碑

Week 0  ──── 项目启动
              │
Week 1  ──── SCST Pipeline 搭建完成 + 离线 CoT 框架搭建
              │
Week 2  ──── ★ 里程碑 1: SCST 单维训练验证通过
              │  同时:探索策略/因果推理/多Agent/离线CoT 原型完成
              │  离线 CoT 开始每日批量运行,积累步骤级奖励数据
              │
Week 3  ──── ★ 里程碑 2: Level 5 达成(SCST 基础可用)
              │
Week 4  ──── 多维奖励函数完成(含 CoT 步骤级奖励)+ 智能路由接入
              │
Week 5  ──── ★ 里程碑 3: 9维 SCST > 单维 SCST(A/B 验证)
              │
Week 6  ──── 全模块串联 + 并行成果接入
              │
Week 7  ──── 飞轮效应调优 + CoT 精准在线启用(Router 选择)
              │
Week 8  ──── ★ 里程碑 4: Level 6 达成(全协同闭环验证通过)
              │
Week 9-10 ── 稳定性/回归/性能 · 正式发布

九、风险与应对

风险 概率 影响 应对
SCST 训练不稳定 🟡 中 🔴 高 采用 PPO 替代 REINFORCE;增大 batch size
多维奖励权重难以调优 🟡 中 🟡 中 先用均等权重上线,后续贝叶斯优化
多智能体协作增加延迟 🟢 低 🟡 中 并行调用 + 超时兜底 + 缓存
探索策略导致质量波动 🟡 中 🟡 中 探索率从 5% 起步,逐步提升
全协同闭环调试困难 🟡 中 🔴 高 每个模块有独立开关(Feature Flags)
资源不足无法并行 🟡 中 🟡 中 优先主线,并行线按 P 排序裁剪
离线 CoT 步骤解析不稳定 🟡 中 🟡 中 规范化 CoT 输出格式 + 容错解析
离线 CoT 成本超预算 🟢 低 🟢 低 调整抽样比例(20%→10%),优先高价值样本

十、资源需求估算

10.1 理想配置(全速并行)

角色 人数 职责
ML 工程师 2 SCST Pipeline + 多维奖励 + 训练调优
后端工程师 2 探索策略全局化 + 因果推理 + 多Agent 框架
全栈工程师 1 智能路由集成 + Prompt 优化联动 + API
测试/DevOps 1 A/B 测试 + 回归 + 性能基准

10.2 最小配置(串行优先)

角色 人数 调整
ML 工程师 1 主线 SCST,并行线延后
后端工程师 1 按 P0→P1→P2 顺序推进
总时间 +4 周 约 10-14 周

十一、度量指标

11.1 阶段 A 结束时(Level 5 基线)

指标 当前值 目标值
QA 幻觉率 ~8% ≤5%
Self-Critique 平均分 基准 +5%
路径首次通过率 ~40% ≥55%

11.2 阶段 B 结束时(Level 5+)

指标 Level 5 基线 目标值
QA 幻觉率 ≤5% ≤3%
模型选择成本 基准 -15%
Prompt 优化后质量 基准 +5%
多维奖励 vs 单维 - 多维显著优于单维

11.3 阶段 C 结束时(Level 6)

指标 Level 5+ 目标值
QA 幻觉率 ≤3% <1%
路径首次通过率 ≥55% >90%
专家路由准确率 ~88% >96%
用户满意度 4.2/5 4.7/5+
成本效率 -15% -30%
跨领域问题解决率

十二、相关文档

文档 说明
MBE_LEVEL6_FULL_SYNERGY_ANALYSIS.md Level 6 全协同能力分析(七大力量详述)
MBE_COT_OFFLINE_STRATEGY.md CoT 分析与离线训练策略(策略 C)
MBE_SCST_ENGINE_WIDE_ENHANCEMENT.md SCST 提升全引擎能力研究
MBE_SELF_CRITICAL_SEQUENCE_APPLICATIONS.md Self-Critique 应用与增强
MBE_CORE_LOOP_OPTIMIZATION_PLAN.md 核心闭环优化计划(实施参考)

十三、总结

策略:      SCST 主线 + Level 6 独立模块并行 → 交织推进
CoT 策略:  策略 C — 在线不用(零成本),离线批量 CoT 训练 SCST
时间:      6-10 周(vs 纯串行 12-16 周)
核心风控:  SCST 先验证、逐步叠加、Feature Flags、A/B 对比

阶段 A → Level 5 达成 + 4 个 Level 6 模块就绪(含离线 CoT)
阶段 B → 9维 SCST(含步骤级奖励)+ 路由/Prompt 集成 → Level 5+
阶段 C → 全模块串联 + CoT 精准在线启用 + 飞轮调优 → Level 6 达成

本路线图的核心思想:SCST 是 Level 5→6 的脊柱,但不是所有 Level 6 能力都长在这根脊柱上。独立的四肢(探索、因果、多Agent、Prompt 优化)可以在脊柱成型的同时并行生长,然后在阶段 B/C 接入,形成完整的 Level 6 有机体。离线 CoT 是脊柱的神经系统——在不增加在线成本的前提下,为 SCST 提供从"答案级"到"步骤级"的精细奖励信号升级。


文档版本: v2.0
更新日期: 2026-02-10