SCST(Self-Critical Sequence Training)提升 MBE 全引擎能力研究

版本: v1.0
日期: 2026-02-10


一、研究结论

SCST 可以系统性地提升整个 MBE 引擎的能力,而非仅限于某一垂直领域。核心逻辑:

  1. MBE 已实现 11 个 Self-Critique 模块,每个都可作为 SCST 的奖励信号源
  2. MBE 已覆盖 7+ 行业领域,每个领域都使用 Self-Critique,都能从 SCST 受益
  3. SCST 框架是引擎级别的优化,一次实现,全领域通用

二、SCST 核心原理

Self-Critical Sequence Training 使用 REINFORCE 算法,以模型自身推理输出(greedy decode)为 baseline:

奖励信号 = Self-Critique 评分(采样序列) - Self-Critique 评分(贪心序列)

与纯 Self-Critique 的区别

维度 仅 Self-Critique Self-Critique + SCST
优化时机 推理时(事后修正) 训练时(根本改善)
计算开销 每次推理都需要验证 训练后推理质量提升,减少修正需求
效果 修正输出(止损) 生成策略本身变好(提质)
覆盖范围 逐条验证 全局策略优化
与 HOPE 协同 推理时学习 训练+推理双重学习
长期价值 持平 持续积累,飞轮效应

Self-Critique 是"检查作业",SCST 是"让学生变聪明"。两者结合是"边检查边让学生越来越聪明"。


三、MBE 已有 Self-Critique 模块 — SCST 奖励信号源

模块 可作为 SCST 奖励信号 当前使用状态 代码位置
QASelfCritique 答案 grounding 分数 + 幻觉率 ✅ DynamicExpert 已用 knowledge/qa_critique.py
EvidenceChainCritique 证据链完整性/逻辑性评分 ✅ 法律模块使用 core/extended_critique.py
IntentCritique 意图理解准确度 ✅ 可异步后台 core/extended_critique.py
ExpertMatchCritique 专家匹配准确度 ✅ expert_router 已用 core/extended_critique.py
RetrievalCritique 检索覆盖度/相关性评分 ✅ 已实现 core/extended_critique.py
ConversationConsistencyCritique 一致性评分 ✅ 可异步后台 core/extended_critique.py
KnowledgeUpdateCritique 知识新鲜度/冲突检测 ✅ knowledge_manager 可调用 core/extended_critique.py
ProfileCritique 画像准确度 ⚠️ 默认关闭 core/extended_critique.py
路径 SelfCritique 路径可行性/价值一致性评分 ⚠️ engine 默认禁用 core/self_critique.py
愿望 SelfCritique 愿望分析深度/因果链评分 ⚠️ engine 默认禁用 core/self_critique.py
SelfCritiqueWithTITANS 增强惊喜度(融合 critique 问题数量) ✅ 已实现 core/self_critique.py

四、SCST 可优化 MBE 引擎核心循环的每个阶段

MBE 引擎核心流程(米塞斯行为学五步序列):

用户输入 → 不舒适感分析 → 愿望分析 → 路径生成 → 评估 → 行动
引擎阶段 当前方式 SCST 优化方式 奖励信号 预期收益
不舒适感识别 LLM 直接生成 SCST 优化深层需求挖掘策略 IntentCritique 分数 需求识别准确率 +15%
愿望分析 监督学习 + 可选 Self-Critique SCST 优化因果链/价值冲突分析 DesireCritique 分数 愿望分析深度 +20%
路径生成 监督学习 + 可选 Self-Critique SCST 优化路径可行性与价值一致性 PathSelfCritique 分数 路径可操作性 +25%
专家匹配 MIRAS + 关键词 + 语义 SCST 优化路由策略 ExpertMatchCritique 分数 匹配准确率 +10%
RAG 检索 MIRAS 多尺度检索 SCST 优化检索查询生成策略 RetrievalCritique 覆盖度 检索准确率 +15%
答案生成 LLM + QASelfCritique SCST 优化生成策略偏向高 grounding QASelfCritique 分数 幻觉率 -40%
多轮对话 上下文拼接 SCST 优化一致性保持策略 ConsistencyCritique 分数 一致性 +20%

五、SCST 可提升全部 7+ 行业领域

MBE 已覆盖的每个行业领域都使用 Self-Critique,SCST 框架一旦实现,所有领域立刻受益:

领域 关键 Self-Critique SCST 可优化点 业务价值
法律 EvidenceChain + QA + Compliance 证据链生成、法律文书、类案检索 证据链完整性 +20-30%
金融 QA + Retrieval + ExpertMatch + Feedback 理财建议、保险方案、合规回答 合规准确率 +25%,幻觉率 -40%
医疗健康 安全性验证 + 边界识别 + 禁忌检查 健康建议安全性、用药提醒准确性 安全性验证通过率 +30%
电商 需求匹配 + 不过度承诺 + 价值验证 商品推荐合理性、不虚假宣传 推荐满意度 +20%
政务 准确性 + 完整性 + 时效性验证 政策解读准确性、办事指南完整性 答复准确率 +20%
物流 时效承诺 + 价格准确 + 方案可行性 时效承诺可兑现性、理赔规则准确性 承诺兑现率 +15%
培训教育 可操作性 + 能力匹配 + 不过度承诺 学习路径推荐、技能评估 学习路径可行性 +25%
营销 B2B/B2C 推荐验证 + 风险提示 销售方案合理性、消费者推荐 转化率 +15%

六、SCST × TITANS × MIRAS × HOPE 全引擎协同闭环

┌──────────────────────────────────────────────────────────────┐
│               SCST 驱动的 MBE 全引擎优化闭环                   │
├──────────────────────────────────────────────────────────────┤
│                                                              │
│  ① MIRAS 检索 → 生成候选输出                                 │
│        ↓                                                     │
│  ② Self-Critique 评分 (11个模块提供多维评分)                   │
│        ↓                                                     │
│  ③ SCST 计算奖励 = critique(采样) - critique(贪心)            │
│        ↓                                                     │
│  ④ REINFORCE 更新生成策略                                     │
│        ↓                                                     │
│  ⑤ HOPE 捕获学习信号:                                        │
│     ├─ FastAdaptation: 学习高奖励的新策略                     │
│     ├─ StableMemory: 固化持续高分的生成模式                   │
│     ├─ PatternRecognition: 发现跨领域通用模式                 │
│     └─ ForgetControl: 淘汰低分策略                            │
│        ↓                                                     │
│  ⑥ TITANS 记忆更新:                                          │
│     ├─ 高惊喜度 + 高 critique 分 → 写入长期记忆               │
│     ├─ SelfCritiqueWithTITANS: enhanced_surprise 计算         │
│     └─ SCST 训练结果 → 更新记忆检索器权重                     │
│        ↓                                                     │
│  ⑦ MIRAS 检索优化:                                           │
│     ├─ SCST 优化查询生成 → MIRAS 输入质量更高                 │
│     ├─ RetrievalCritique 反馈 → 迭代检索策略改进              │
│     └─ 全局层权重由 HOPE 偏好动态调整                         │
│        ↓                                                     │
│  ⑧ 回到 ①,形成持续优化飞轮                                  │
│                                                              │
└──────────────────────────────────────────────────────────────┘

现有代码集成点

集成点 文件位置 当前状态 SCST 可扩展
SelfCritiqueWithTITANS self_critique.py:729-837 ✅ 已实现 增加 SCST 奖励信号到增强惊喜度
专家信任评分 expert_trust_score.py:62-63 ✅ self_critique_passes/fails 已记录 SCST 优化可提升通过率
质量循环 quality_loop.py:262-286 ✅ QASelfCritique 修正 SCST 减少需要修正的次数
自动优化器 auto_optimizer.py ✅ QASelfCritique 触发改进 SCST 从根本上减少低质量输出
训练管道 training/titans_expert_trainer.py ✅ 知识蒸馏+监督学习 添加 SCST 奖励信号
HOPE 训练 training/train_hope.py ✅ 惊喜度在线学习 SCST 增强 HOPE 学习效果

SelfCritiqueWithTITANS 已有的增强惊喜度计算

# 已实现: self_critique.py
enhanced_surprise = base_surprise
                  + len(critique_issues) * 0.1      # critique 发现的问题越多,惊喜越大
                  + (1 - avg_critique_score) * 0.2   # critique 分数越低,惊喜越大
                  + (0.15 if not passed else 0)      # 未通过验证,额外惊喜

# SCST 可扩展:
scst_enhanced_surprise = enhanced_surprise
                       + abs(scst_reward) * 0.15     # SCST 奖励信号越大,学习越积极

七、SCST 训练管道集成方案

7.1 当前训练方法

方法 实现位置 说明
知识蒸馏 training/titans/miras_module.py:257-292 LLMDistiller 蒸馏
监督学习 training/train_titans_miras.py HybridTrainer
HOPE 训练 training/train_hope.py HopeTrainer
持续学习 src/core/continual_learning.py KnowledgeConsolidator

7.2 SCST 集成点

集成点 当前训练方式 SCST 奖励信号 优化目标
专家模型微调 知识对齐损失 + 相关度损失 QASelfCritique 分数 答案更 grounded
路径生成 监督学习 PathSelfCritique 分数 路径更可行
证据链生成 基于规则 EvidenceChainCritique 分数 证据链更完整
HOPE 训练 惊喜度在线学习 SCST 奖励信号增强 偏好进化更高效
检索查询生成 无显式训练 RetrievalCritique 覆盖度 检索更精准

八、实施路线图

Phase 1: SCST 基础框架(1-2 周)

  • 实现 SCST 训练循环(通用框架,不绑定领域)
  • 集成 QASelfCritique 评分作为首个奖励信号
  • 小规模验证:QA 答案生成 SCST 训练
  • 评估幻觉率变化

Phase 2: 核心循环 SCST(2-4 周)

  • 路径生成 SCST 训练(PathSelfCritique 奖励)
  • 愿望分析 SCST 训练(DesireCritique 奖励)
  • SCST 奖励信号接入 SelfCritiqueWithTITANS
  • 评估核心循环质量提升

Phase 3: 检索与路由 SCST(1-2 月)

  • 检索查询生成 SCST(RetrievalCritique 奖励)
  • 专家路由策略 SCST(ExpertMatchCritique 奖励)
  • SCST × HOPE 协同训练
  • 全领域效果评估

Phase 4: 领域深度 SCST(2-3 月)

  • 法律:证据链/文书生成 SCST
  • 金融:合规回答 SCST
  • 各领域特定 Self-Critique 作为奖励信号
  • 全链路闭环与持续优化

九、预期收益总结

维度 预期提升
QA 幻觉率 从 ~8% 降至 <3%(-60%)
路径可操作性 +25%
专家路由准确率 从 82% 提升至 92%(+10%)
检索覆盖度 +15-20%
用户满意度 从 4.0/5 提升至 4.5/5
核心循环质量 每个阶段平均 +15-25%
跨领域一致性 所有 7+ 行业同步受益

十、相关文档

文档 说明
MBE_SELF_CRITICAL_SEQUENCE_APPLICATIONS.md Self-Critique 整体应用与增强建议
MBE_LEGAL_SCST_TITANS_MIRAS_HOPE_INTEGRATION.md SCST×TITANS×MIRAS×HOPE 法律领域结合应用
TITANS-MIRAS-ARCHITECTURE.md TITANS+MIRAS 混合架构
MBE_CORE_LOOP_OPTIMIZATION_PLAN.md 核心闭环优化计划

文档版本: v1.0
更新日期: 2026-02-10