MBE Level 5 → Level 6 实施路线图

版本: v2.0
日期: 2026-02-10
v2.0 变更: 纳入离线 CoT（策略 C）作为阶段 A 第 4 条并行线，升级依赖矩阵为七大力量

一、路线策略：混合交织推进

核心原则：不是先 Level 5 再 Level 6（纯串行），也不是直接跳 Level 6（风险过高），而是 以 SCST 为主线，Level 6 独立模块并行推进。

时间    ─────────────────────────────────────────────────────────────────►

        ┌── 阶段 A (2-3w) ──┐┌── 阶段 B (2-3w) ──┐┌── 阶段 C (2-4w) ──┐
        │                    ││                    ││                    │
主线    │  SCST 基础框架      ││  多维奖励升级       ││  全协同闭环调优     │
(L5)    │  单维奖励 + 验证    ││  8维+步骤级奖励     ││  飞轮效应 + A/B    │
        │                    ││                    ││                    │
并行    │  探索策略全局化 ━━━━━━━━━━━━━━━►接入SCST   ││                    │
(L6)    │  因果推理纳入图谱 ━━━━━━━━━━━━━►接入SCST   ││                    │
        │  多智能体框架原型 ━━━━━━━━━━━━━━━━━━━━━━━━━►串联              │
        │  离线CoT框架搭建 ━━━━━━►步骤级奖励接入SCST ━━━►精准在线CoT      │
        │                    ││  智能路由×SCST      ││                    │
        │                    ││  Prompt优化×SCST    ││  模拟器×SCST       │
        └────────────────────┘└────────────────────┘└────────────────────┘

        ◄─── Level 5 达成 ──►◄───── Level 5+ ──────►◄─── Level 6 达成 ──►

CoT 策略: 在线不启用 CoT（零额外成本）
          离线批量 CoT 重跑 → 步骤级奖励 → 喂 SCST 训练
          阶段 C 后: Router 学会精准选择 → 可选择性在线启用

总预期时间：6-10 周（混合推进） vs 12-16 周（纯串行）

二、依赖关系矩阵

Level 6 七大力量对 SCST（Level 5 核心）的依赖程度分析：

#	Level 6 力量	依赖 SCST？	可并行先行？	说明
1	多维评估信号	强依赖 ❌	✗	多维奖励函数是给 SCST 用的
2	智能路由优化	强依赖 ❌	△	路由本身可用，但 SCST 优化需等
3	探索策略全局化	弱依赖 △	✓	全局化本身不需要 SCST
4	Prompt 自优化	弱依赖 △	✓	优化器已有，SCST 联动需等
5	多智能体协作	无依赖 ✓	✓	完全独立的新能力
6	因果推理+模拟	无依赖 ✓	✓	图谱扩展，不依赖 SCST
7	离线 CoT 推理增强	弱依赖 △	✓	框架可独立搭建，步骤级奖励在阶段 B 接入 SCST

关键发现：7 大力量中仅前 2 个强依赖 SCST，后 5 个可独立推进。

CoT 策略决策（策略 C：离线 CoT）

策略	在线成本	SCST 训练质量	采用？
A. 等 SCST 训练好再启用 CoT	🟢 零	🟡 答案级	✗
B. 上线就全量 CoT	🔴 2-3 倍	🟢 步骤级	✗
C. 在线不用，离线训练时用	🟢 零	🟢 步骤级	✓ 采用

详见 MBE_COT_OFFLINE_STRATEGY.md。

三、为什么不直接跳 Level 6？

风险	说明	严重程度
调试困难	直接 8 维奖励 + 全模块联动，出问题无法定位是哪个维度/模块导致的	🔴 高
基线缺失	没有单维 SCST 基线，无法度量多维升级带来的增量收益	🔴 高
SCST 本身有风险	RL 训练不稳定是常见问题，先用简单设置验证可行性	🟡 中
权重不明确	不知道 8 个维度的权重应该如何配比，需先有单维数据做参照	🟡 中
资源浪费	如果 SCST 基础框架有问题，所有 Level 6 的 SCST 集成工作都要返工	🟡 中

四、为什么不纯粹先 Level 5 再 Level 6？

原因	说明	浪费程度
时间浪费	探索策略、因果推理、多智能体完全不依赖 SCST，等 SCST 做完再开始是浪费	🔴 高（+4-6w）
Level 5 本身不完整	单维 SCST 训练效果有限，尽早拿到多维信号才能让 SCST 真正发挥威力	🟡 中
缺少协同验证	阶段 B 需要阶段 A 并行成果（如探索策略结果直接喂 SCST 奖励函数）	🟡 中
团队闲置	等 SCST 验证期间，其他模块的开发力量被搁置	🟡 中

五、阶段 A：SCST 基础 + 独立模块并行（2-3 周）

5.1 主线：SCST 基础框架

目标：验证 SCST 在 MBE 中可行

任务	优先级	预期时间	关键产出
SCST 训练 Pipeline 搭建	P0	3-5 天	基础训练循环：采样→评分→对比→梯度更新
Self-Critique 评分接口统一	P0	2-3 天	11 个 Critique 模块输出统一的 [0,1] 评分
单维奖励函数实现	P0	1-2 天	`reward = critique(sample) - critique(greedy)`
在 1-2 个专家上验证	P0	3-5 天	证明 SCST 训练后回答质量有提升
训练稳定性调优	P1	2-3 天	学习率、采样温度、baseline 平滑

# 阶段 A 核心代码目标
class SCSTrainer:
    """SCST 基础训练器"""
    
    def train_step(self, input_batch):
        # 1. 贪心解码（baseline）
        greedy_output = self.model.generate(input_batch, do_sample=False)
        greedy_score = self.critique_ensemble.score(greedy_output)
        
        # 2. 采样解码
        sample_output = self.model.generate(input_batch, do_sample=True)
        sample_score = self.critique_ensemble.score(sample_output)
        
        # 3. REINFORCE 奖励
        reward = sample_score - greedy_score  # 单维奖励
        
        # 4. 策略梯度更新
        loss = -reward * log_prob(sample_output)
        loss.backward()

验收标准：

SCST 训练 pipeline 端到端跑通
在测试专家上，SCST 训练后 Self-Critique 平均分提升 ≥5%
训练过程稳定（reward 不震荡）

5.2 并行线 1：探索策略全局化

目标：将 exploration_strategy.py 从专家推荐扩展到全系统

任务	预期时间	产出
抽象 ExplorationStrategy 接口	2 天	通用接口，支持 ε-greedy/UCB/Thompson
LLM 路由探索	2 天	Smart Router 使用 UCB 选模型
检索策略探索	2 天	MIRAS 检索步骤使用 ε-greedy 尝试新策略
Prompt 模板探索	1 天	Auto Prompt Optimizer 探索新模板
探索结果记录	1 天	每次探索结果写入 TITANS 记忆 + 知识图谱

验收标准：

三个场景（路由/检索/Prompt）支持探索策略
探索日志可追溯
阶段 B 可直接作为 SCST 奖励信号接入

5.3 并行线 2：因果推理纳入知识图谱

目标：图谱新增因果推理能力

任务	预期时间	产出
新增 CAUSES 边类型	1 天	知识图谱支持因果关系
因果链查询 API	2 天	`get_causal_chain(entity)`
因果推理集成 MIRAS	2 天	检索时考虑因果路径
法律领域因果数据导入	2 天	合同违约→赔偿、侵权→责任等因果链

验收标准：

图谱支持因果边的增删查
MIRAS 检索可利用因果路径增强结果

5.4 并行线 3：多智能体协作框架原型

目标：实现多专家协同回答

任务	预期时间	产出
AgentOrchestrator 编排层	3 天	编排多个专家协作回答
图谱驱动的 Agent 选择	2 天	知识图谱判断需要哪些专家协作
跨 Agent 一致性验证	2 天	Self-Critique 检验多 Agent 回答不矛盾
结果融合策略	2 天	多专家回答的智能合并

验收标准：

跨领域问题可触发多 Agent 协作
协作回答比单 Agent 回答质量更高（人工评估）

5.5 并行线 4：离线 CoT 框架（策略 C）

目标：搭建离线 CoT 批量处理框架，为 SCST 提供步骤级奖励信号

策略：在线服务不启用 CoT（零额外成本），离线批量 CoT 重跑训练数据

任务	预期时间	产出
CoT Prompt 模板设计	2 天	Self-Critique/Evaluator/PathGen 三套 CoT Prompt
在线交互日志记录管道	1 天	问题+答案+评分 → 训练数据库
离线 CoT 批量重跑框架	3 天	`OfflineCoTTrainer` 每日/每周自动抽样重跑
步骤级奖励提取器	2 天	`CoTRewardExtractor` 从推理链提取每步评分
抽样策略实现	1 天	优先复杂问题、低分问题，排除简单问答

# 离线 CoT 核心流程
class OfflineCoTTrainer:
    async def daily_batch(self):
        # 1. 从在线日志抽样（优先复杂/低分问题）
        samples = self.db.sample_interactions(
            n=200, strategy='priority_complex'
        )
        # 2. CoT 模式重跑
        for sample in samples:
            cot_output = await self.llm.generate(
                prompt=sample.question,
                system=COT_CRITIQUE_PROMPT  # 要求逐步推理
            )
            # 3. 提取步骤级奖励
            rewards = self.extractor.extract(cot_output)
            # 4. 存入 SCST 训练数据
            self.training_db.store(sample, cot_output, rewards)

验收标准：

离线 CoT 批量框架可每日自动运行
步骤级奖励可被提取（每步评分 + 最弱环节识别）
离线成本可控（≤$2/天@200 条抽样）
阶段 B 可直接将步骤级奖励接入 SCST 多维奖励函数

六、阶段 B：SCST 升级 + 系统整合（2-3 周）

6.1 多维奖励函数（P0）

前置条件：阶段 A 主线完成（SCST 基础可用）

任务	预期时间	产出
Answer Evaluator 6 维评分接入	2 天	准确性/可溯源/相关性/完整性/清晰度/无幻觉
隐式反馈信号接入	1 天	情感/参与度/清晰度隐式信号
信任分/价值评估接入	1 天	expert_trust_score + value_assessor
合规性评分接入	1 天	compliance_checker 评分
成本/延迟惩罚项	1 天	token 成本 + 响应延迟
帕累托权重调优	3 天	网格搜索/贝叶斯优化找最优权重

# 阶段 B 核心升级
class MultiDimensionalReward:
    """8 维帕累托奖励"""
    
    WEIGHTS = {
        'self_critique':    0.25,  # 质量验证
        'answer_evaluator': 0.20,  # 6维评估
        'trust_score':      0.15,  # 信任分变化
        'value_assessment': 0.15,  # 效用价值
        'implicit_feedback': 0.10, # 隐式行为信号
        'compliance':       0.05,  # 合规性
        'cost_penalty':    -0.05,  # 成本效率
        'latency_penalty': -0.05,  # 响应速度
    }
    
    def compute(self, sample_output, greedy_output, context):
        reward = 0.0
        for dim, weight in self.WEIGHTS.items():
            sample_score = self.scorers[dim].score(sample_output, context)
            greedy_score = self.scorers[dim].score(greedy_output, context)
            reward += weight * (sample_score - greedy_score)
        return reward

6.2 智能路由 × SCST（P0）

任务	预期时间	产出
Smart Router 决策纳入 SCST 训练	2 天	SCST 学习"什么问题用什么模型"
成本/延迟→奖励函数集成	1 天	自动控成本控速度
TITANS 记忆路由模式	2 天	同类问题直接调用最优路由

6.3 Prompt 优化 × SCST（P1）

任务	预期时间	产出
SCST 训练数据→Prompt 改进规则	2 天	从训练发现的模式自动生成 Prompt 优化建议
TITANS 记忆最优 Prompt	2 天	每个领域/场景记忆最有效的 Prompt 模板
知识图谱 Prompt 映射	1 天	"问题类型 → 最优 Prompt" 结构化映射

6.4 阶段 A 并行成果接入 SCST

任务	预期时间	产出
探索策略结果→SCST 奖励	1 天	探索成功/失败纳入奖励信号
因果推理准确性→SCST 奖励	1 天	因果链正确性纳入评分
离线 CoT 步骤级奖励→SCST	2 天	步骤正确性 + 推理连贯性纳入多维奖励函数

6.5 多维奖励函数升级（含 CoT 步骤级）

# 阶段 B 升级版：9 维帕累托奖励（含 CoT 步骤级）
WEIGHTS = {
    'self_critique':       0.20,  # 质量验证
    'answer_evaluator':    0.18,  # 6维评估
    'cot_step_accuracy':   0.12,  # ★ CoT 步骤正确性（新增）
    'cot_coherence':       0.05,  # ★ CoT 推理连贯性（新增）
    'trust_score':         0.12,  # 信任分变化
    'value_assessment':    0.12,  # 效用价值
    'implicit_feedback':   0.08,  # 隐式行为信号
    'compliance':          0.05,  # 合规性
    'cost_penalty':       -0.04,  # 成本效率
    'latency_penalty':    -0.04,  # 响应速度
}

阶段 B 验收标准：

多维奖励显著优于单维奖励（A/B 测试验证）
模型选择成本降低 ≥15%
Prompt 优化后回答质量提升 ≥5%

七、阶段 C：全协同闭环（2-4 周）

7.1 全模块串联

任务	预期时间	产出
9 维信号→7 层同步进化验证	3 天	每次交互触发全链路信号流
多智能体 × SCST	3 天	SCST 学习"何时多 Agent vs 单 Agent"
企业家模拟器 × SCST	3 天	模拟结果准确性纳入训练
CoT 精准在线启用	3 天	Router 学会选择→高收益问题在线启用 CoT
飞轮效应调优	5 天	系统级参数协同调优
A/B 测试全量验证	3 天	Level 5 vs Level 6 全面对比（含 CoT/无 CoT 对比）

7.2 稳定性与回归

任务	预期时间	产出
回归用例全覆盖	2 天	Level 6 新功能回归测试
性能基准测试	2 天	延迟/吞吐量/资源占用基准
灾备验证	1 天	Level 6 组件故障降级策略

阶段 C 验收标准：

Level 6 vs Level 5 所有关键指标均有提升
系统延迟增加不超过 20%
故障降级到 Level 5 秒级切换
连续运行 7 天无重大故障

八、关键里程碑

Week 0  ──── 项目启动
              │
Week 1  ──── SCST Pipeline 搭建完成 + 离线 CoT 框架搭建
              │
Week 2  ──── ★ 里程碑 1: SCST 单维训练验证通过
              │  同时：探索策略/因果推理/多Agent/离线CoT 原型完成
              │  离线 CoT 开始每日批量运行，积累步骤级奖励数据
              │
Week 3  ──── ★ 里程碑 2: Level 5 达成（SCST 基础可用）
              │
Week 4  ──── 多维奖励函数完成（含 CoT 步骤级奖励）+ 智能路由接入
              │
Week 5  ──── ★ 里程碑 3: 9维 SCST > 单维 SCST（A/B 验证）
              │
Week 6  ──── 全模块串联 + 并行成果接入
              │
Week 7  ──── 飞轮效应调优 + CoT 精准在线启用（Router 选择）
              │
Week 8  ──── ★ 里程碑 4: Level 6 达成（全协同闭环验证通过）
              │
Week 9-10 ── 稳定性/回归/性能 · 正式发布

九、风险与应对

风险	概率	影响	应对
SCST 训练不稳定	🟡 中	🔴 高	采用 PPO 替代 REINFORCE；增大 batch size
多维奖励权重难以调优	🟡 中	🟡 中	先用均等权重上线，后续贝叶斯优化
多智能体协作增加延迟	🟢 低	🟡 中	并行调用 + 超时兜底 + 缓存
探索策略导致质量波动	🟡 中	🟡 中	探索率从 5% 起步，逐步提升
全协同闭环调试困难	🟡 中	🔴 高	每个模块有独立开关（Feature Flags）
资源不足无法并行	🟡 中	🟡 中	优先主线，并行线按 P 排序裁剪
离线 CoT 步骤解析不稳定	🟡 中	🟡 中	规范化 CoT 输出格式 + 容错解析
离线 CoT 成本超预算	🟢 低	🟢 低	调整抽样比例（20%→10%），优先高价值样本

十、资源需求估算

10.1 理想配置（全速并行）

角色	人数	职责
ML 工程师	2	SCST Pipeline + 多维奖励 + 训练调优
后端工程师	2	探索策略全局化 + 因果推理 + 多Agent 框架
全栈工程师	1	智能路由集成 + Prompt 优化联动 + API
测试/DevOps	1	A/B 测试 + 回归 + 性能基准

10.2 最小配置（串行优先）

角色	人数	调整
ML 工程师	1	主线 SCST，并行线延后
后端工程师	1	按 P0→P1→P2 顺序推进
总时间	+4 周	约 10-14 周

十一、度量指标

11.1 阶段 A 结束时（Level 5 基线）

指标	当前值	目标值
QA 幻觉率	~8%	≤5%
Self-Critique 平均分	基准	+5%
路径首次通过率	~40%	≥55%

11.2 阶段 B 结束时（Level 5+）

指标	Level 5 基线	目标值
QA 幻觉率	≤5%	≤3%
模型选择成本	基准	-15%
Prompt 优化后质量	基准	+5%
多维奖励 vs 单维	-	多维显著优于单维

11.3 阶段 C 结束时（Level 6）

指标	Level 5+	目标值
QA 幻觉率	≤3%	<1%
路径首次通过率	≥55%	>90%
专家路由准确率	~88%	>96%
用户满意度	4.2/5	4.7/5+
成本效率	-15%	-30%
跨领域问题解决率	中	强

十二、相关文档

文档	说明
MBE_LEVEL6_FULL_SYNERGY_ANALYSIS.md	Level 6 全协同能力分析（七大力量详述）
MBE_COT_OFFLINE_STRATEGY.md	CoT 分析与离线训练策略（策略 C）
MBE_SCST_ENGINE_WIDE_ENHANCEMENT.md	SCST 提升全引擎能力研究
MBE_SELF_CRITICAL_SEQUENCE_APPLICATIONS.md	Self-Critique 应用与增强
MBE_CORE_LOOP_OPTIMIZATION_PLAN.md	核心闭环优化计划（实施参考）

十三、总结

策略：      SCST 主线 + Level 6 独立模块并行 → 交织推进
CoT 策略：  策略 C — 在线不用（零成本），离线批量 CoT 训练 SCST
时间：      6-10 周（vs 纯串行 12-16 周）
核心风控：  SCST 先验证、逐步叠加、Feature Flags、A/B 对比

阶段 A → Level 5 达成 + 4 个 Level 6 模块就绪（含离线 CoT）
阶段 B → 9维 SCST（含步骤级奖励）+ 路由/Prompt 集成 → Level 5+
阶段 C → 全模块串联 + CoT 精准在线启用 + 飞轮调优 → Level 6 达成

本路线图的核心思想：SCST 是 Level 5→6 的脊柱，但不是所有 Level 6 能力都长在这根脊柱上。独立的四肢（探索、因果、多Agent、Prompt 优化）可以在脊柱成型的同时并行生长，然后在阶段 B/C 接入，形成完整的 Level 6 有机体。离线 CoT 是脊柱的神经系统——在不增加在线成本的前提下，为 SCST 提供从"答案级"到"步骤级"的精细奖励信号升级。

文档版本: v2.0
更新日期: 2026-02-10