MBE 链式推理（CoT）分析与离线训练策略

版本: v1.0
日期: 2026-02-10

一、现状：MBE 当前无显式 CoT

经代码库全面检视，MBE 没有任何显式 Chain-of-Thought 实现：

模块	当前推理方式	CoT 缺口
答案生成 (`ai_bot.py`)	直接生成答案	没有要求模型展示推理过程
Self-Critique (`self_critique.py`)	"逐步验证"但直接输出 JSON	验证过程不透明
Answer Evaluator (`answer_evaluator.py`)	按 6 维直接打分	评分无推理依据
Path Generator (`paths.py`)	生成路径→批评→修正	路径生成时无分步推理
Dialogue MoE (`dialogue_moe.py`)	关键词匹配选策略	策略选择无推理链
Auto Prompt Optimizer	模板式指令增强	没有 CoT 优化模板

所有模块都是"直接输出结构化 JSON"，没有任何模块要求 LLM 先展示中间推理步骤再给出结论。

二、CoT 对 MBE 的价值

2.1 五大核心增强场景

#	场景	当前方式	CoT 增强后	预期提升
1	复杂问答	LLM 直接回答	分步推理→逐步验证→最终答案	幻觉率 -15~25%
2	Self-Critique	黑箱评分	逐步审计推理链每一步	验证精度大幅提升
3	路径规划	生成路径不透明	显式推理约束/权衡/选择	路径质量提升
4	知识图谱多跳	程序化遍历	推理链可解释化	用户可追溯推导
5	评估打分	直接输出分数	推理后打分，评分有理有据	SCST 奖励更精确

2.2 CoT 与 SCST 的特殊协同

# 无 CoT 时，SCST 奖励粒度
reward = final_answer_score(sample) - final_answer_score(greedy)
# → 只知道最终答案好不好，不知道哪一步推理出了问题

# 有 CoT 时，SCST 奖励粒度
reward = (
    w1 × (step_correctness(sample_steps) - step_correctness(greedy_steps))
  + w2 × (final_answer_score(sample) - final_answer_score(greedy))
  + w3 × (reasoning_coherence(sample_chain) - reasoning_coherence(greedy_chain))
)
# → 知道哪一步推理出问题，SCST 可以精准优化那一步

三、策略选择：离线 CoT（策略 C）

3.1 三种策略对比

策略	在线成本	SCST 训练质量	选择风险
A. 等 SCST 训练好再启用 CoT	🟢 零增加	🟡 只有答案级奖励	无
B. 上线就全量 CoT	🔴 2-3 倍	🟢 步骤级精细奖励	无
C. 在线不用，离线训练时用	🟢 零增加	🟢 步骤级精细奖励	无

3.2 决策理由

采用策略 C，原因：

在线零成本增加：用户交互时不启用 CoT，不多花 LLM API 费用
离线获得精细奖励：后台批量重跑时用 CoT，获得步骤级奖励信号
成本完全可控：离线抽样比例和预算可灵活调整
无选择风险：不需要 Router 判断是否启用（全离线，全启用）
为未来在线 CoT 铺路：积累数据后可训练 Router 做精准在线选择

3.3 架构设计

在线服务（面向用户，零额外成本）:
  ┌─────────────────────────────────────────────────┐
  │  用户提问 → LLM 直接回答（无 CoT）→ 返回用户     │
  │  同时记录: 问题 + 答案 + 评分 → 训练数据库        │
  └─────────────────────────────────────────────────┘

离线训练（后台批量，可控预算）:
  ┌─────────────────────────────────────────────────┐
  │  每天/每周从数据库抽样 N 条                       │
  │  → 对同样问题用 CoT 模式重新生成                  │
  │  → 得到推理链 + 答案                             │
  │  → Self-Critique 逐步验证推理链每一步             │
  │  → 产生步骤级奖励信号                            │
  │  → 喂给 SCST 训练                               │
  └─────────────────────────────────────────────────┘

SCST 训练成果反哺在线:
  ┌─────────────────────────────────────────────────┐
  │  · 模型生成质量提升 → 在线答案变好                │
  │  · Router 学会哪些问题受益于 CoT                  │
  │  · 达标后可选择性在线启用 CoT（精准投放）          │
  └─────────────────────────────────────────────────┘

3.4 成本估算

假设每天在线交互 1000 次:
  离线 CoT 重跑 20% = 200 条
  每条 CoT 额外 ~1000 output tokens
  按 DeepSeek 价格 ≈ $0.01/条
  
  离线成本: 200 × $0.01 = $2/天 ≈ $60/月
  
  换来:
  · SCST 训练精度从"答案级"升级为"步骤级"
  · 1-2 个月后 Router 可做精准 CoT 在线投放

3.5 演进路线

Phase 1 (Month 1-2): 纯离线 CoT
  · 在线: 无 CoT，零额外成本
  · 离线: 20% 抽样 CoT 训练 SCST
  · 产出: 步骤级奖励信号 + Router 训练数据

Phase 2 (Month 3+): 精准在线 CoT
  · SCST 训练出 Router CoT 选择能力（准确率 90%+）
  · 只对高收益问题在线启用 CoT
  · 成本: 基准 + ~15% CoT 增量（仅复杂问题）

Phase 3 (Month 5+): 自适应 CoT
  · HOPE 学习用户偏好（偏好详细推理 vs 直接结论）
  · TITANS 记忆场景级 CoT 策略
  · 完全自适应，按需启用

四、离线 CoT 的技术实现要点

4.1 CoT Prompt 设计

# Self-Critique CoT 化
COT_CRITIQUE_PROMPT = """
请对以下回答进行逐步验证。

## 要求
对每个验证步骤，先展示你的推理过程，再给出该步骤的判断。

## 验证步骤
Step 1: 检查事实准确性
  <thinking>你的推理过程</thinking>
  <judgment>正确/错误 + 理由</judgment>

Step 2: 检查逻辑连贯性
  <thinking>你的推理过程</thinking>
  <judgment>正确/错误 + 理由</judgment>

Step 3: 检查完整性
  <thinking>你的推理过程</thinking>
  <judgment>正确/错误 + 理由</judgment>

## 最终评分
<score>0-1 综合分数</score>
"""

4.2 步骤级奖励提取

class CoTRewardExtractor:
    """从 CoT 输出中提取步骤级奖励"""
    
    def extract(self, cot_output: str) -> Dict:
        steps = self.parse_steps(cot_output)
        return {
            'step_scores': [s.score for s in steps],     # 每步评分
            'step_issues': [s.issues for s in steps],     # 每步问题
            'overall_score': self.aggregate(steps),       # 综合评分
            'weakest_step': min(steps, key=lambda s: s.score),  # 最弱环节
            'reasoning_coherence': self.coherence(steps), # 推理连贯性
        }

4.3 离线批量处理

class OfflineCoTTrainer:
    """离线 CoT 训练管理器"""
    
    async def daily_batch(self):
        # 1. 从在线日志抽样
        samples = self.db.sample_interactions(
            n=200,
            strategy='priority_complex',  # 优先复杂问题
            exclude_simple=True           # 排除简单问答
        )
        
        # 2. CoT 重跑
        for sample in samples:
            cot_output = await self.llm.generate(
                prompt=self.cot_prompt(sample.question),
                system=COT_CRITIQUE_PROMPT
            )
            
            # 3. 提取步骤级奖励
            rewards = self.extractor.extract(cot_output)
            
            # 4. 存入 SCST 训练数据
            self.training_db.store(
                question=sample.question,
                original_answer=sample.answer,
                cot_answer=cot_output,
                step_rewards=rewards
            )
        
        # 5. 触发 SCST 增量训练
        await self.scst_trainer.train_batch(self.training_db.latest())

五、CoT 在全协同架构中的位置

CoT 不是独立的一层，而是贯穿所有层的推理增强剂：

  感知层 (MIRAS)     + CoT → 检索时解释"为什么选这些文档"
  推理层 (图谱)      + CoT → 多跳推理可解释化
  记忆层 (TITANS)    + CoT → 记忆推理链模式（不只记答案）
  学习层 (HOPE)      + CoT → 学习用户偏好的推理风格
  验证层 (Critique)  + CoT → 从黑箱验证变为推理审计
  优化层 (SCST)      + CoT → 步骤级奖励替代答案级奖励
  决策层 (Router)    + CoT → 未来学会何时需要在线 CoT

六、相关文档

文档	说明
MBE_LEVEL6_FULL_SYNERGY_ANALYSIS.md	Level 6 全协同能力分析（CoT 为第七力）
MBE_LEVEL5_LEVEL6_IMPLEMENTATION_ROADMAP.md	Level 5→6 实施路线图（含离线 CoT 阶段）
MBE_SCST_ENGINE_WIDE_ENHANCEMENT.md	SCST 提升全引擎能力研究

文档版本: v1.0
更新日期: 2026-02-10