SCST（Self-Critical Sequence Training）提升 MBE 全引擎能力研究

版本: v1.0
日期: 2026-02-10

一、研究结论

SCST 可以系统性地提升整个 MBE 引擎的能力，而非仅限于某一垂直领域。核心逻辑：

MBE 已实现 11 个 Self-Critique 模块，每个都可作为 SCST 的奖励信号源
MBE 已覆盖 7+ 行业领域，每个领域都使用 Self-Critique，都能从 SCST 受益
SCST 框架是引擎级别的优化，一次实现，全领域通用

二、SCST 核心原理

Self-Critical Sequence Training 使用 REINFORCE 算法，以模型自身推理输出（greedy decode）为 baseline：

奖励信号 = Self-Critique 评分(采样序列) - Self-Critique 评分(贪心序列)

与纯 Self-Critique 的区别：

维度	仅 Self-Critique	Self-Critique + SCST
优化时机	推理时（事后修正）	训练时（根本改善）
计算开销	每次推理都需要验证	训练后推理质量提升，减少修正需求
效果	修正输出（止损）	生成策略本身变好（提质）
覆盖范围	逐条验证	全局策略优化
与 HOPE 协同	推理时学习	训练+推理双重学习
长期价值	持平	持续积累，飞轮效应

Self-Critique 是"检查作业"，SCST 是"让学生变聪明"。两者结合是"边检查边让学生越来越聪明"。

三、MBE 已有 Self-Critique 模块 — SCST 奖励信号源

模块	可作为 SCST 奖励信号	当前使用状态	代码位置
QASelfCritique	答案 grounding 分数 + 幻觉率	✅ DynamicExpert 已用	`knowledge/qa_critique.py`
EvidenceChainCritique	证据链完整性/逻辑性评分	✅ 法律模块使用	`core/extended_critique.py`
IntentCritique	意图理解准确度	✅ 可异步后台	`core/extended_critique.py`
ExpertMatchCritique	专家匹配准确度	✅ expert_router 已用	`core/extended_critique.py`
RetrievalCritique	检索覆盖度/相关性评分	✅ 已实现	`core/extended_critique.py`
ConversationConsistencyCritique	一致性评分	✅ 可异步后台	`core/extended_critique.py`
KnowledgeUpdateCritique	知识新鲜度/冲突检测	✅ knowledge_manager 可调用	`core/extended_critique.py`
ProfileCritique	画像准确度	⚠️ 默认关闭	`core/extended_critique.py`
路径 SelfCritique	路径可行性/价值一致性评分	⚠️ engine 默认禁用	`core/self_critique.py`
愿望 SelfCritique	愿望分析深度/因果链评分	⚠️ engine 默认禁用	`core/self_critique.py`
SelfCritiqueWithTITANS	增强惊喜度（融合 critique 问题数量）	✅ 已实现	`core/self_critique.py`

四、SCST 可优化 MBE 引擎核心循环的每个阶段

MBE 引擎核心流程（米塞斯行为学五步序列）：

用户输入 → 不舒适感分析 → 愿望分析 → 路径生成 → 评估 → 行动

引擎阶段	当前方式	SCST 优化方式	奖励信号	预期收益
不舒适感识别	LLM 直接生成	SCST 优化深层需求挖掘策略	IntentCritique 分数	需求识别准确率 +15%
愿望分析	监督学习 + 可选 Self-Critique	SCST 优化因果链/价值冲突分析	DesireCritique 分数	愿望分析深度 +20%
路径生成	监督学习 + 可选 Self-Critique	SCST 优化路径可行性与价值一致性	PathSelfCritique 分数	路径可操作性 +25%
专家匹配	MIRAS + 关键词 + 语义	SCST 优化路由策略	ExpertMatchCritique 分数	匹配准确率 +10%
RAG 检索	MIRAS 多尺度检索	SCST 优化检索查询生成策略	RetrievalCritique 覆盖度	检索准确率 +15%
答案生成	LLM + QASelfCritique	SCST 优化生成策略偏向高 grounding	QASelfCritique 分数	幻觉率 -40%
多轮对话	上下文拼接	SCST 优化一致性保持策略	ConsistencyCritique 分数	一致性 +20%

五、SCST 可提升全部 7+ 行业领域

MBE 已覆盖的每个行业领域都使用 Self-Critique，SCST 框架一旦实现，所有领域立刻受益：

领域	关键 Self-Critique	SCST 可优化点	业务价值
法律	EvidenceChain + QA + Compliance	证据链生成、法律文书、类案检索	证据链完整性 +20-30%
金融	QA + Retrieval + ExpertMatch + Feedback	理财建议、保险方案、合规回答	合规准确率 +25%，幻觉率 -40%
医疗健康	安全性验证 + 边界识别 + 禁忌检查	健康建议安全性、用药提醒准确性	安全性验证通过率 +30%
电商	需求匹配 + 不过度承诺 + 价值验证	商品推荐合理性、不虚假宣传	推荐满意度 +20%
政务	准确性 + 完整性 + 时效性验证	政策解读准确性、办事指南完整性	答复准确率 +20%
物流	时效承诺 + 价格准确 + 方案可行性	时效承诺可兑现性、理赔规则准确性	承诺兑现率 +15%
培训教育	可操作性 + 能力匹配 + 不过度承诺	学习路径推荐、技能评估	学习路径可行性 +25%
营销	B2B/B2C 推荐验证 + 风险提示	销售方案合理性、消费者推荐	转化率 +15%

六、SCST × TITANS × MIRAS × HOPE 全引擎协同闭环

┌──────────────────────────────────────────────────────────────┐
│               SCST 驱动的 MBE 全引擎优化闭环                   │
├──────────────────────────────────────────────────────────────┤
│                                                              │
│  ① MIRAS 检索 → 生成候选输出                                 │
│        ↓                                                     │
│  ② Self-Critique 评分 (11个模块提供多维评分)                   │
│        ↓                                                     │
│  ③ SCST 计算奖励 = critique(采样) - critique(贪心)            │
│        ↓                                                     │
│  ④ REINFORCE 更新生成策略                                     │
│        ↓                                                     │
│  ⑤ HOPE 捕获学习信号:                                        │
│     ├─ FastAdaptation: 学习高奖励的新策略                     │
│     ├─ StableMemory: 固化持续高分的生成模式                   │
│     ├─ PatternRecognition: 发现跨领域通用模式                 │
│     └─ ForgetControl: 淘汰低分策略                            │
│        ↓                                                     │
│  ⑥ TITANS 记忆更新:                                          │
│     ├─ 高惊喜度 + 高 critique 分 → 写入长期记忆               │
│     ├─ SelfCritiqueWithTITANS: enhanced_surprise 计算         │
│     └─ SCST 训练结果 → 更新记忆检索器权重                     │
│        ↓                                                     │
│  ⑦ MIRAS 检索优化:                                           │
│     ├─ SCST 优化查询生成 → MIRAS 输入质量更高                 │
│     ├─ RetrievalCritique 反馈 → 迭代检索策略改进              │
│     └─ 全局层权重由 HOPE 偏好动态调整                         │
│        ↓                                                     │
│  ⑧ 回到 ①，形成持续优化飞轮                                  │
│                                                              │
└──────────────────────────────────────────────────────────────┘

现有代码集成点

集成点	文件位置	当前状态	SCST 可扩展
SelfCritiqueWithTITANS	`self_critique.py:729-837`	✅ 已实现	增加 SCST 奖励信号到增强惊喜度
专家信任评分	`expert_trust_score.py:62-63`	✅ self_critique_passes/fails 已记录	SCST 优化可提升通过率
质量循环	`quality_loop.py:262-286`	✅ QASelfCritique 修正	SCST 减少需要修正的次数
自动优化器	`auto_optimizer.py`	✅ QASelfCritique 触发改进	SCST 从根本上减少低质量输出
训练管道	`training/titans_expert_trainer.py`	✅ 知识蒸馏+监督学习	添加 SCST 奖励信号
HOPE 训练	`training/train_hope.py`	✅ 惊喜度在线学习	SCST 增强 HOPE 学习效果

SelfCritiqueWithTITANS 已有的增强惊喜度计算

# 已实现: self_critique.py
enhanced_surprise = base_surprise
                  + len(critique_issues) * 0.1      # critique 发现的问题越多，惊喜越大
                  + (1 - avg_critique_score) * 0.2   # critique 分数越低，惊喜越大
                  + (0.15 if not passed else 0)      # 未通过验证，额外惊喜

# SCST 可扩展:
scst_enhanced_surprise = enhanced_surprise
                       + abs(scst_reward) * 0.15     # SCST 奖励信号越大，学习越积极

七、SCST 训练管道集成方案

7.1 当前训练方法

方法	实现位置	说明
知识蒸馏	`training/titans/miras_module.py:257-292`	LLMDistiller 蒸馏
监督学习	`training/train_titans_miras.py`	HybridTrainer
HOPE 训练	`training/train_hope.py`	HopeTrainer
持续学习	`src/core/continual_learning.py`	KnowledgeConsolidator

7.2 SCST 集成点

集成点	当前训练方式	SCST 奖励信号	优化目标
专家模型微调	知识对齐损失 + 相关度损失	QASelfCritique 分数	答案更 grounded
路径生成	监督学习	PathSelfCritique 分数	路径更可行
证据链生成	基于规则	EvidenceChainCritique 分数	证据链更完整
HOPE 训练	惊喜度在线学习	SCST 奖励信号增强	偏好进化更高效
检索查询生成	无显式训练	RetrievalCritique 覆盖度	检索更精准

八、实施路线图

Phase 1: SCST 基础框架（1-2 周）

实现 SCST 训练循环（通用框架，不绑定领域）
集成 QASelfCritique 评分作为首个奖励信号
小规模验证：QA 答案生成 SCST 训练
评估幻觉率变化

Phase 2: 核心循环 SCST（2-4 周）

路径生成 SCST 训练（PathSelfCritique 奖励）
愿望分析 SCST 训练（DesireCritique 奖励）
SCST 奖励信号接入 SelfCritiqueWithTITANS
评估核心循环质量提升

Phase 3: 检索与路由 SCST（1-2 月）

检索查询生成 SCST（RetrievalCritique 奖励）
专家路由策略 SCST（ExpertMatchCritique 奖励）
SCST × HOPE 协同训练
全领域效果评估

Phase 4: 领域深度 SCST（2-3 月）

法律：证据链/文书生成 SCST
金融：合规回答 SCST
各领域特定 Self-Critique 作为奖励信号
全链路闭环与持续优化

九、预期收益总结

维度	预期提升
QA 幻觉率	从 ~8% 降至 <3%（-60%）
路径可操作性	+25%
专家路由准确率	从 82% 提升至 92%（+10%）
检索覆盖度	+15-20%
用户满意度	从 4.0/5 提升至 4.5/5
核心循环质量	每个阶段平均 +15-25%
跨领域一致性	所有 7+ 行业同步受益

十、相关文档

文档	说明
MBE_SELF_CRITICAL_SEQUENCE_APPLICATIONS.md	Self-Critique 整体应用与增强建议
MBE_LEGAL_SCST_TITANS_MIRAS_HOPE_INTEGRATION.md	SCST×TITANS×MIRAS×HOPE 法律领域结合应用
TITANS-MIRAS-ARCHITECTURE.md	TITANS+MIRAS 混合架构
MBE_CORE_LOOP_OPTIMIZATION_PLAN.md	核心闭环优化计划

文档版本: v1.0
更新日期: 2026-02-10