SCST × TITANS × MIRAS × HOPE 在 MBE 法律领域的结合应用研究
版本: v1.0
日期: 2026-02-10
一、研究背景与目标
MBE(Mises Behavior Engine)已在法律领域构建了涵盖四角色(当事人、律师、法官、诉讼对手)的完整 Self-Critique 工作流。现有系统包括证据链验证、意图澄清、跨文书一致性、合规检查、类案检索、裁判文书评估等能力(详见 MBE_LEGAL_SELF_CRITIQUE_APPLICATIONS.md)。
本文档聚焦于 MBE 四大核心技术模块在法律领域的深度结合:
| 模块 |
全称 |
核心功能 |
实现状态 |
| SCST |
Self-Critical Sequence Training |
基于 REINFORCE 的自我批评序列训练,以模型自身推理输出为 baseline 优化生成 |
⚠️ 研究方向,尚未实现 |
| TITANS |
Test-Time Adaptation with Neural Long-term Memory |
神经长期记忆,测试时学习,惊喜度驱动记忆更新 |
✅ 已实现 |
| MIRAS |
Multi-scale Iterative Retrieval-Augmented System |
多尺度迭代检索增强,局部/上下文/全局三层表示 |
✅ 已实现 |
| HOPE |
Hierarchical Online Preference Evolution |
分层在线偏好进化,惊喜度驱动的 4-专家 MoE 持续学习 |
✅ 已实现 |
目标:分析四者如何在法律场景中协同增强,构建"记忆-检索-学习-优化"闭环的法律 AI 专家系统。
二、四模块在法律领域的角色定位
2.1 架构全景
┌─────────────────────────────────────────────────────────────────────────┐
│ SCST × TITANS × MIRAS × HOPE 法律架构 │
├─────────────────────────────────────────────────────────────────────────┤
│ │
│ 用户输入 (法律咨询/证据/文书) │
│ ↓ │
│ ┌───────────────────────────────────────────────┐ │
│ │ MIRAS 多尺度法律编码器 │ │
│ │ ┌─────────┐ ┌───────────┐ ┌─────────────┐ │ │
│ │ │ 局部 │ │ 上下文 │ │ 全局 │ │ │
│ │ │ (法律行 │ │ (案件场景 │ │ (用户法律 │ │ │
│ │ │ 为特征) │ │ /争议焦 │ │ 偏好与模式) │ │ │
│ │ │ 256d │ │ 点) 384d │ │ 512d │ │ │
│ │ └────┬────┘ └────┬─────┘ └──────┬──────┘ │ │
│ │ └────────────┼───────────────┘ │ │
│ │ ↓ │ │
│ │ 迭代检索器 (3步精化) │ │
│ │ Step1: 法条/判例粗检索(top-100) │ │
│ │ Step2: 案情关联精细检索(top-30) │ │
│ │ Step3: 角色适配最终检索(top-10) │ │
│ └───────────────────────────────────────────────┘ │
│ ↓ │
│ ┌───────────────────────────────────────────────┐ │
│ │ TITANS 法律长期记忆模块 │ │
│ │ ┌─────────────────────────────────────────┐ │ │
│ │ │ 用户法律历史记忆 (1024 slots × 512d) │ │ │
│ │ │ ├── 咨询案件类型模式 │ │ │
│ │ │ ├── 证据链推理偏好 │ │ │
│ │ │ ├── 法律领域关注点 │ │ │
│ │ │ └── 专家交互历史 │ │ │
│ │ └─────────────────────────────────────────┘ │ │
│ │ ↓ │ │
│ │ 惊喜检测器 (法律场景适配) │ │
│ │ surprise = 1 - cos_sim(predicted, actual) │ │
│ │ 高惊喜: 新型案件/未见法律问题 → 学习 │ │
│ │ 低惊喜: 常规咨询 → 复用记忆 │ │
│ └───────────────────────────────────────────────┘ │
│ ↓ │
│ ┌───────────────────────────────────────────────┐ │
│ │ HOPE 法律偏好进化层 │ │
│ │ ┌──────────────┐ ┌──────────────┐ │ │
│ │ │ FastAdaptation│ │ StableMemory │ │ │
│ │ │ (新法律知识 │ │ (法律知识 │ │ │
│ │ │ 快速习得) │ │ 稳定保持) │ │ │
│ │ └──────────────┘ └──────────────┘ │ │
│ │ ┌──────────────┐ ┌──────────────┐ │ │
│ │ │ PatternRecog │ │ ForgetControl│ │ │
│ │ │ (法律推理 │ │ (过时法条 │ │ │
│ │ │ 模式发现) │ │ 选择性遗忘) │ │ │
│ │ └──────────────┘ └──────────────┘ │ │
│ └───────────────────────────────────────────────┘ │
│ ↓ │
│ ┌───────────────────────────────────────────────┐ │
│ │ Self-Critique 法律验证层 │ │
│ │ EvidenceChainCritique → IntentCritique → │ │
│ │ QASelfCritique → RetrievalCritique → │ │
│ │ ConversationConsistencyCritique │ │
│ └───────────────────────────────────────────────┘ │
│ ↓ │
│ ┌───────────────────────────────────────────────┐ │
│ │ SCST 优化层 (规划中) │ │
│ │ RL 训练 → 以 Self-Critique 分数为奖励信号 │ │
│ │ 优化证据链生成/类案检索/裁判评估策略 │ │
│ └───────────────────────────────────────────────┘ │
│ ↓ │
│ 输出: 法律分析结果 / 文书 / 建议 │
│ │
└─────────────────────────────────────────────────────────────────────────┘
2.2 各模块法律领域角色
| 模块 |
法律领域角色 |
类比 |
| MIRAS |
法律知识检索员 — 多层级精确检索法条、判例、裁量指引 |
律所资深助理,能从海量判例中层层筛选找到最相关的案例 |
| TITANS |
法律记忆管家 — 记住用户案件历史、偏好模式,遇到新型法律问题时主动学习 |
跟随当事人多年的私人律师,了解其全部案件背景 |
| HOPE |
法律偏好进化器 — 持续学习用户法律需求变化,平衡新知识习得与旧知识保持 |
不断自我提升的律师,既快速掌握新法规,又稳固基本功 |
| SCST |
法律输出优化器 — 用自我批评分数作为奖励信号,强化学习优化生成策略 |
资深合伙人审稿后反馈,驱动初级律师不断提高文书质量 |
三、TITANS 在法律场景的深度应用
3.1 法律长期记忆架构
TITANS 在法律场景中管理三类记忆:
| 记忆类型 |
存储内容 |
TTL |
法律应用 |
| 短期记忆 |
当前咨询上下文、本轮证据、当前争议焦点 |
5 分钟 |
庭审实时辅助、当庭对话跟踪 |
| 中期记忆 |
案件进展、阶段性分析结果、文书草稿版本 |
24 小时 |
案件推进、多轮文书修改 |
| 长期记忆 |
用户案件类型偏好、法律领域关注模式、专家交互历史、证据链推理风格 |
持久化 |
个性化法律服务、长期案件管理 |
3.2 惊喜检测在法律场景的意义
# 法律场景惊喜度计算
class LegalSurpriseDetector:
"""
法律场景中的"惊喜"信号:
高惊喜 (surprise > 0.7):
- 用户提出全新类型的法律问题 (如:从劳动争议突然转向知识产权)
- 新司法解释与现有知识冲突
- 证据链出现意外断裂或矛盾
→ 触发: TITANS 写入新记忆 + HOPE 快速适应
中惊喜 (0.3 < surprise < 0.7):
- 同类案件但有新细节
- 法条适用有争议
→ 触发: 更新相关记忆 + MIRAS 扩展检索
低惊喜 (surprise < 0.3):
- 常规法律咨询、重复类型案件
→ 触发: 直接复用记忆 + 标准检索
"""
3.3 测试时学习的法律价值
| 场景 |
传统系统 |
TITANS 测试时学习 |
| 新法规颁布 |
需重新训练或手动更新知识库 |
惊喜度触发,自动将新法规纳入长期记忆 |
| 用户案件类型变化 |
无法适应,需重新配置 |
检测到偏好变化,自动调整记忆权重 |
| 新型判例出现 |
等待定期更新 |
实时学习,下次检索即可利用 |
| 证据链推理模式进化 |
固定模板 |
从每次交互中学习更好的推理模式 |
四、MIRAS 在法律场景的深度应用
4.1 法律领域多尺度编码
| 尺度 |
维度 |
法律场景含义 |
示例 |
| 局部 (Local) |
256d |
具体法律行为/关键词 |
"工伤赔偿"、"合同违约金"、"离婚财产分割" |
| 上下文 (Context) |
384d |
案件场景/争议焦点/诉讼阶段 |
"劳动争议仲裁阶段"、"合同纠纷一审" |
| 全局 (Global) |
512d |
用户法律模式/偏好/风险倾向 |
"倾向协商解决"、"重视证据完整性"、"关注诉讼时效" |
4.2 三步迭代检索在法律领域的定制
Step 1 — 粗检索 (top-100): 法条库 + 判例库
输入: 局部特征 (关键词: "劳动合同解除")
匹配: 相关法条 (《劳动合同法》第36-50条) + 判例 (劳动争议类)
Step 2 — 精细检索 (top-30): 结合案情上下文
输入: 上下文特征 (争议焦点: "用人单位单方解除 + 经济补偿")
过滤: 保留解除类判例 + 经济补偿裁判标准
Step 3 — 最终检索 (top-10): 角色适配 + 用户偏好
输入: 全局特征 (用户角色: 当事人 + TITANS 记忆: 关注补偿金额)
精选: 补偿金额相近案例 + 有利于当事人角度的判例
4.3 MIRAS 与法律自我批评的结合
| MIRAS 检索层 |
对应 Self-Critique |
协同效果 |
| 局部检索 |
RetrievalCritique |
验证关键词检索覆盖度,防止遗漏核心法条 |
| 上下文检索 |
EvidenceChainCritique |
基于案情上下文验证证据链完整性 |
| 全局检索 |
ExpertMatchCritique |
确保检索结果匹配用户角色与偏好 |
4.4 匹配权重法律适配
# 法律场景 MIRAS 匹配权重(与默认有差异)
LEGAL_MATCHING_WEIGHTS = {
"local": 0.40, # 法律关键词精确匹配(法条号、案由)
"context": 0.35, # 案件上下文/争议焦点(比通用场景更重要)
"global": 0.25, # 用户偏好 + TITANS 记忆(法律领域个性化需求更突出)
}
五、HOPE 在法律场景的深度应用
5.1 HOPE 四专家在法律领域的职能
| 专家 |
通用功能 |
法律领域职能 |
典型场景 |
| FastAdaptationExpert |
快速适应新知识 |
快速习得新法规、新司法解释、新判例 |
《民法典》更新 → 快速纳入合同审查规则 |
| StableMemoryExpert |
稳定知识保持 |
保持基本法律原理、长期有效法条、裁判标准 |
基本法律原则(诚实信用、公平原则)不因新法而丢失 |
| PatternRecognitionExpert |
模式发现 |
发现用户法律推理模式、案件类型偏好、证据组织习惯 |
发现某律师偏好"三段论"式论证 → 优化文书生成 |
| ForgetControlExpert |
选择性遗忘 |
淘汰已废止法条、过时司法解释、不再适用的判例 |
旧《婚姻法》废止后 → 遗忘旧条文,保留《民法典》新规 |
5.2 HOPE 惊喜度驱动的法律学习
法律场景惊喜度阈值调整:
surprise_threshold = 0.7 (默认)
法律领域建议:
- 法规更新事件: threshold = 0.5 (降低阈值,更积极学习新法)
- 新型案件类型: threshold = 0.6 (适度敏感)
- 常规咨询迭代: threshold = 0.8 (提高阈值,避免过度更新)
5.3 HOPE 与专家路由的法律领域协同
用户: "我被公司无故辞退,工资还没发..."
HOPE 偏好记忆:
- 历史: 该用户曾咨询过"社保补缴"问题 → 劳动法领域
- 偏好: 倾向详细解释法条依据
- 模式: 关注赔偿金额计算
专家路由调整:
labor_lawyer 基础分: 0.85
HOPE 偏好加成: +0.15 (劳动法领域历史偏好)
最终匹配分: 1.00 → 优先路由到劳动法专家
MIRAS 检索偏置:
全局层权重: 0.25 × HOPE 偏好 → 检索侧重赔偿金额计算的判例
六、SCST 在法律场景的应用规划
6.1 SCST 核心原理
Self-Critical Sequence Training(自我批评序列训练)使用 REINFORCE 算法,以模型自身推理输出(greedy decode)为 baseline:
奖励信号 = Self-Critique 评分(采样序列) - Self-Critique 评分(贪心序列)
在法律领域,这意味着:用法律 Self-Critique(证据链、合规、一致性等)的评分作为奖励信号,强化学习优化法律输出生成策略。
6.2 SCST 法律应用场景
| 应用方向 |
奖励信号来源 |
优化目标 |
预期收益 |
| 证据链生成 |
EvidenceChainCritique 评分 |
生成更完整、逻辑性更强的证据链 |
证据链完整性 +20-30% |
| 法律文书生成 |
QASelfCritique + 合规评分 |
文书更 grounded、合规、无幻觉 |
幻觉率 -40%,合规率 +25% |
| 类案检索 |
RetrievalCritique 覆盖度评分 |
检索更准确、覆盖更全面 |
检索准确率 +15-20% |
| 裁判文书评估 |
五维度评估总分 |
评估更精准、建议更实用 |
评估一致性 +20% |
| 法律路径推荐 |
路径 Self-Critique 评分 |
诉讼/和解/仲裁方案更合理 |
方案实操性 +25% |
| 专家回答优化 |
QASelfCritique 通过率 |
法律咨询更准确、可靠 |
满意度 +15% |
6.3 SCST + Self-Critique 闭环
┌─────────────────────────────────────────────────┐
│ SCST 法律优化闭环 │
├─────────────────────────────────────────────────┤
│ │
│ 1. 采样阶段 │
│ LLM 生成 K 个候选法律输出 │
│ (证据链/文书/检索结果) │
│ ↓ │
│ 2. Self-Critique 评分 │
│ ├── EvidenceChainCritique: 证据链完整性 │
│ ├── QASelfCritique: 事实 grounding │
│ ├── ComplianceCheck: LEGAL_001~008 合规 │
│ ├── ConsistencyCritique: 一致性 │
│ └── RetrievalCritique: 检索覆盖度 │
│ ↓ │
│ 3. 奖励计算 │
│ reward = critique_score(sample) │
│ - critique_score(greedy_baseline) │
│ ↓ │
│ 4. REINFORCE 更新 │
│ 更新生成策略,偏向高 critique 分数的序列 │
│ ↓ │
│ 5. 反馈到 HOPE │
│ ├── 高 surprise 样本 → FastAdaptation 学习 │
│ └── 稳定模式 → StableMemory 巩固 │
│ ↓ │
│ 6. 反馈到 TITANS │
│ ├── 新型法律推理模式 → 写入长期记忆 │
│ └── 有效检索策略 → 更新记忆检索器 │
│ │
└─────────────────────────────────────────────────┘
七、四模块协同:法律四角色应用矩阵
7.1 当事人(Litigant)
| 诉讼阶段 |
MIRAS 作用 |
TITANS 作用 |
HOPE 作用 |
SCST 作用 (规划) |
| 起诉前 |
多尺度检索相关法条与胜诉率统计 |
记住用户案件背景、历史咨询 |
学习用户诉求偏好(赔偿 vs 道歉) |
优化诉求分析输出质量 |
| 证据准备 |
迭代检索证据链参考案例 |
关联用户之前提供的证据碎片 |
发现用户证据组织习惯 |
强化证据链生成完整性 |
| 诉讼中 |
检索庭审相关法条与程序 |
记忆庭审进展、法官关注点 |
适应诉讼阶段变化 |
优化法律解释输出 |
| 和解/调解 |
检索和解方案与判例对比 |
记忆用户底线与期望 |
学习用户协商偏好 |
优化方案推荐策略 |
7.2 律师(Lawyer)
| 诉讼阶段 |
MIRAS 作用 |
TITANS 作用 |
HOPE 作用 |
SCST 作用 (规划) |
| 接案分析 |
三层检索:案由→争议焦点→类案 |
积累律师案件经验记忆 |
学习律师分析风格与偏好 |
优化案情分析准确度 |
| 证据组织 |
检索证据链构建规范与案例 |
记忆律师证据链组织方式 |
发现证据链推理最佳模式 |
强化证据链验证策略 |
| 文书起草 |
检索文书模板与法条引用 |
积累律师文书风格 |
适应不同类型文书偏好 |
以合规+grounding 评分优化文书 |
| 庭审准备 |
检索对方可能的抗辩点与反驳 |
记忆对方律师风格(如适用) |
学习庭审策略偏好 |
优化策略模拟输出 |
7.3 法官(Judge)
| 诉讼阶段 |
MIRAS 作用 |
TITANS 作用 |
HOPE 作用 |
SCST 作用 (规划) |
| 事实认定 |
检索相似案件事实认定标准 |
积累法官事实认定模式 |
发现认定偏好与裁量模式 |
优化事实认定一致性 |
| 法律适用 |
多尺度检索法条+司法解释+判例 |
记忆法官常用法条组合 |
追踪新法规/解释的适用变化 |
优化法条适用建议 |
| 裁判文书 |
检索裁判说理参考 |
积累文书写作风格 |
适应说理风格变化 |
以五维评估分数优化 |
| 同案同判 |
类案检索+裁量标准检索 |
记忆类案裁判结果 |
发现裁量区间模式 |
优化同判建议 |
7.4 诉讼对手(Opposing Party)
| 诉讼阶段 |
MIRAS 作用 |
TITANS 作用 |
HOPE 作用 |
SCST 作用 (规划) |
| 诉求分析 |
检索对方诉求相关判例 |
记忆对方诉讼策略模式 |
学习抗辩焦点偏好 |
优化对方薄弱点分析 |
| 证据分析 |
检索对方证据链薄弱环节参考 |
积累反驳策略记忆 |
发现有效反驳模式 |
强化反驳策略生成 |
| 答辩起草 |
检索答辩理由与反诉依据 |
记忆答辩风格与策略 |
适应不同案件类型策略 |
以 grounding 评分优化答辩 |
八、关键协同机制
8.1 TITANS × MIRAS 门控融合(法律适配)
def legal_hybrid_forward(query, user_id, role):
"""法律场景的 TITANS × MIRAS 融合"""
# MIRAS: 多尺度法律检索
local_repr = miras.encode_local(query) # "合同违约" → 256d
context_repr = miras.encode_context(query) # "买卖合同纠纷一审" → 384d
global_repr = miras.encode_global(query, user_id) # 用户法律偏好 → 512d
miras_repr = miras.iterative_retrieve(
local_repr, context_repr, global_repr,
weights=LEGAL_MATCHING_WEIGHTS # 法律适配权重
)
# TITANS: 法律长期记忆
titans_repr = titans.recall(query, user_id) # 检索用户法律记忆
surprise = titans.detect_surprise(query, user_id) # 计算惊喜度
# 门控融合 (法律场景:新型案件更依赖检索,老客户更依赖记忆)
gate = fusion_gate(titans_repr, miras_repr)
gate = gate * (0.5 + 0.5 * surprise) # 惊喜度越高 → TITANS 权重越大
output = gate * titans_repr + (1 - gate) * miras_repr
# TITANS 测试时学习
if surprise > 0.7:
titans.learn_at_test_time(query, output, surprise)
return output, surprise
8.2 HOPE × TITANS 偏好-记忆联动
用户连续咨询:
T1: "劳动合同解除怎么赔偿" → surprise=0.6, HOPE 记录劳动法偏好
T2: "工伤认定标准" → surprise=0.3, HOPE 强化劳动法模式
T3: "我想离婚" → surprise=0.9, HOPE FastAdaptation 切换到婚姻家事
TITANS 写入新记忆槽
MIRAS 全局层更新偏好向量
8.3 MIRAS × Self-Critique 检索-验证闭环
检索-验证循环:
MIRAS Step1 → RetrievalCritique → 覆盖度不足? → 扩大 top_k 重检索
MIRAS Step2 → EvidenceChainCritique → 证据链断链? → 补充检索缺失环节
MIRAS Step3 → ExpertMatchCritique → 专家不匹配? → 调整全局权重重检索
8.4 SCST × HOPE 训练-学习协同 (规划中)
SCST 训练产出:
→ 更优的证据链生成策略 → HOPE PatternRecognition 发现有效推理模式
→ 更高的合规评分策略 → HOPE StableMemory 固化合规知识
→ 新型法律推理模式 → HOPE FastAdaptation 快速纳入
→ 已废弃的推理策略 → HOPE ForgetControl 选择性遗忘
九、法律领域特殊优化
9.1 法律知识更新机制 (TITANS × HOPE × KnowledgeUpdateCritique)
新法规/司法解释发布:
↓
KnowledgeUpdateCritique 检测冲突:
- 新法条 vs 已有知识库 → 识别冲突
↓
TITANS:
- 高惊喜度 → 写入新法规记忆
- 标记旧法条记忆为"可能过时"
↓
HOPE:
- FastAdaptation: 快速习得新法条
- ForgetControl: 渐进遗忘旧法条(保留过渡期适用性)
- StableMemory: 保持基本法律原则不变
↓
MIRAS:
- 更新检索索引权重,新法条优先检索
- 旧法条降权但保留(历史案件仍需参考)
9.2 证据链推理增强 (MIRAS × TITANS × Self-Critique)
证据链推理流程:
1. MIRAS 多尺度检索证据链参考案例
2. TITANS 回忆用户之前的证据链推理模式
3. LLM 生成证据链: 证据A → 事实1 → 证据B → 事实2 → 结论
4. EvidenceChainCritique 验证:
- 证据-事实对应 ✓
- 逻辑连贯性 ✓
- 链条完整性 ✗ (缺少证据C)
5. MIRAS 补充检索: 针对缺失环节检索补强证据
6. TITANS 学习: 记忆此证据链模式,下次类似案件直接复用
9.3 类案检索精准度优化 (MIRAS × TITANS × HOPE)
类案检索增强:
MIRAS:
局部层: 精确匹配案由 + 关键法条 (权重 0.40)
上下文层: 匹配争议焦点 + 诉讼标的额区间 (权重 0.35)
全局层: 匹配用户角色 + HOPE 偏好 (权重 0.25)
TITANS:
- 回忆用户之前查看过的类案 → 避免重复推荐
- 记忆用户对哪些类案评价高 → 优化排序
HOPE:
- FastAdaptation: 新判例快速纳入检索范围
- PatternRecognition: 发现用户偏好的判例类型
- ForgetControl: 淘汰不再具有参考价值的旧判例
十、实施路线图
10.1 阶段规划
| 阶段 |
时间 |
目标 |
核心工作 |
| Phase 0 |
当前 |
基础已就绪 |
TITANS + MIRAS + HOPE + Self-Critique 已实现;法律四角色工作流已部署 |
| Phase 1 |
1-2 周 |
法律领域参数调优 |
MIRAS 法律匹配权重调优;TITANS 法律惊喜阈值调优;HOPE 四专家法律比重调优 |
| Phase 2 |
2-4 周 |
深度协同优化 |
TITANS×MIRAS 门控融合法律适配;HOPE×TITANS 法律偏好-记忆联动;检索-验证闭环强化 |
| Phase 3 |
1-2 月 |
SCST 法律训练 |
实现 SCST 训练框架;以法律 Self-Critique 评分为奖励信号;首轮证据链/文书生成 SCST 训练 |
| Phase 4 |
2-3 月 |
全链路闭环 |
SCST×HOPE 训练-学习协同;法律知识更新全自动化;性能评估与持续优化 |
10.2 关键指标
| 指标 |
当前基线 |
Phase 2 目标 |
Phase 4 目标 |
| 证据链完整性评分 |
0.72 |
0.82 |
0.90+ |
| 法律文书合规率 |
85% |
92% |
97%+ |
| 类案检索准确率 |
70% |
80% |
88%+ |
| 法律咨询幻觉率 |
8% |
4% |
<2% |
| 专家路由准确率 |
82% |
90% |
95%+ |
| 用户满意度 |
4.0/5 |
4.3/5 |
4.6/5+ |
| MIRAS 首次匹配延迟 |
<1s |
<0.5s |
<0.3s |
十一、技术风险与缓解
| 风险 |
严重度 |
缓解措施 |
| SCST 训练不稳定 |
高 |
小学习率(1e-5) + gradient clipping + reward shaping |
| TITANS 法律记忆污染 |
中 |
惊喜度阈值调优 + 记忆验证(KnowledgeUpdateCritique) |
| HOPE 灾难性遗忘 |
中 |
经验回放 buffer + StableMemory 保护基本法律原则 |
| MIRAS 检索偏差 |
低 |
RetrievalCritique 覆盖度监控 + 定期检索质量评估 |
| 法规更新延迟 |
中 |
KnowledgeUpdateCritique + HOPE FastAdaptation 联动 |
| 四模块计算开销 |
中 |
MIRAS 预热 + HOPE 条件触发 + Self-Critique 异步执行 |
十二、与投资者价值对接
四模块结合为 MBE 法律专家项目(详见 MBE_LEGAL_EXPERT_PROJECT_INVESTOR_MATERIALS.md)带来的差异化竞争优势:
| 技术优势 |
竞争壁垒 |
投资者价值 |
| TITANS 法律长期记忆 |
竞品无法模拟的个性化法律服务 |
用户粘性极高,迁移成本大 |
| MIRAS 多尺度法律检索 |
三层检索精度远超单层向量检索 |
检索准确率领先 15-20% |
| HOPE 法律偏好进化 |
持续学习能力,越用越懂用户 |
用户生命周期价值持续增长 |
| SCST 法律输出优化 |
以 Self-Critique 驱动的 RL 优化 |
输出质量形成飞轮效应 |
| 四模块闭环 |
记忆-检索-学习-优化协同壁垒 |
技术壁垒高,难以复制 |
十三、相关文档
十四、总结
SCST × TITANS × MIRAS × HOPE 在法律领域的结合形成了一个**"记忆-检索-学习-优化"四位一体闭环**:
- MIRAS 提供多尺度精准法律检索(法条→案情→偏好三层筛选)
- TITANS 提供法律长期记忆与测试时学习(惊喜驱动的动态知识更新)
- HOPE 提供法律偏好持续进化(四专家分工:快速适应/稳定保持/模式发现/选择遗忘)
- SCST 提供法律输出强化优化(Self-Critique 评分驱动的 RL 训练闭环)
四者协同,使 MBE 法律专家系统能够:
- 检索更精准:MIRAS 三层检索 + RetrievalCritique 验证
- 记忆更持久:TITANS 长期法律记忆 + 测试时学习新法规
- 学习更智能:HOPE 持续偏好进化 + 平衡新旧法律知识
- 输出更可靠:SCST 以自我批评分数优化生成策略
- 服务更个性:四模块联动实现越用越懂用户的法律 AI
这一架构为 MBE 法律专家项目提供了难以复制的技术壁垒,也是面向法律软件上市公司收购的核心技术资产。
文档版本: v1.0
更新日期: 2026-02-10