米塞斯行为引擎 - 模型架构文档

📦 模型概览

🧠 核心模型（TITANS+MIRAS）

模型文件	大小	用途	状态
`titans_miras_inference.pt`	61M	推理用主模型	✅ 在用
`titans_miras_final.pt`	137M	完整训练模型	备份
`titans_miras_epoch_50.pt`	137M	第50轮checkpoint	备份

核心模型配置（目标）：

input_dim: 384        # 匹配 sentence-transformers 输出
memory_dim: 512       # 记忆向量维度
num_memory_slots: 1024 # 记忆槽数量
num_retrieval_steps: 3 # MIRAS 检索步数

👨‍💼 专家特定模型（完整架构）

模型	大小	参数量	专家名称
`civil_lawyer_dynamic_civil_lawyer.pt`	161M	4,200万	中国民事律师
`securities_lawyer_dynamic_62837b8c038e.pt`	161M	4,200万	中国证券律师
`sdi_expert_dynamic_520adb076e77.pt`	161M	4,200万	系统设计面试专家
`bread_master_best.pt`	9.7M	-	手工面包大师

🤖 动态创建的专家（轻量级架构）

ID	专家名称	来源	模型大小	参数量
`dynamic_f7cdefb77b24`	茶乌龙专家	日本茶道入门PDF	5.1M	130万
`dynamic_9eed8609b814`	林徽因专家	中国建筑常识PDF	5.1M	130万
`dynamic_e9ba75495a9c`	运动教练专家	Sports Training PDF	5.1M	130万
`dynamic_f21c2aed7d7b`	营养治疗师专家	Williams' Nutrition PDF	5.1M	130万
+ 8个其他动态专家			5.1M	130万

📚 内置专家（无需独立模型）

使用核心 TITANS 模型 + 内置知识库：

手工面包大师
美国饮食文化专家
日本饮食文化专家
现代主义烹饪专家
味觉鉴赏专家
健身教练
逻辑导师
英语口语教练
体检诊断顾问
维特根斯坦哲学
老年医学顾问

🔄 模型类型对比

专家特定模型 vs 动态专家

特性	专家特定模型	动态专家
模型大小	161 MB	5.1 MB
参数量	4,200万	130万
架构	完整 TITANS+MIRAS	轻量级适配层
训练样本	500-1000+	~460
训练时间	数小时	几分钟
创建方式	手动运行脚本	上传PDF自动生成
适用场景	深度推理、复杂领域	快速部署、知识检索

为什么动态专家使用轻量级架构？

1. 速度考虑

完整模型训练：数小时（CPU）
轻量级训练：几分钟

用户上传 PDF 后希望快速使用，而非等待数小时。

2. 资源考虑

完整模型：161MB × 12 = 1.9GB
轻量级：5.1MB × 12 = 61MB

3. 实际效果

动态专家主要依靠 RAG 检索（从 PDF 找答案）
轻量级模型足以做 查询增强 和 相关性排序
完整模型更适合需要 深度推理 的复杂领域

🔧 模型训练与更新

何时需要重新训练？

操作	需要重新训练核心模型？	需要重新训练专家模型？
添加新专家	❌ 不需要	❌ 不需要
上传 PDF 文档	❌ 不需要	❌ 不需要
更新专家知识库	❌ 不需要	❌ 不需要
优化核心能力	✅ 需要	⚠️ 视架构变化而定
改变核心模型架构	✅ 需要	✅ 需要

核心模型架构变化时的更新流程

1. 重新训练核心 TITANS+MIRAS 模型
   ↓
2. 重新生成内置专家的嵌入缓存（自动，几分钟）
   ↓
3. 重新训练专家特定模型（每个约30-60分钟）
   ↓
4. 重新训练动态专家（可选，批量处理）

日常操作流程

添加新专家或上传 PDF：

上传 PDF → 文本提取 → 分块 → 生成嵌入 → TITANS增强（自动） → 保存缓存

这个过程是自动的，不需要重新训练模型。

📊 模型存储位置

training/checkpoints/
├── titans_miras_inference.pt      # 核心推理模型
├── titans_miras_final.pt          # 核心完整模型
├── titans_miras_epoch_50.pt       # 核心检查点
├── civil_lawyer_*.pt              # 民事律师专家模型
├── securities_lawyer_*.pt         # 证券律师专家模型
├── sdi_expert_*.pt                # 系统设计专家模型
└── experts/
    ├── bread_master_*.pt          # 面包大师
    └── expert_dynamic_*_trained.pt # 动态专家模型

🚀 升级动态专家为完整模型

如果某个动态专家使用频繁、需要更高质量，可以升级：

# 将动态专家升级为完整训练
python scripts/upgrade_expert.py --expert-id dynamic_f7cdefb77b24 --full-training

升级过程：

使用 PDF 生成更多合成数据
使用完整 TITANS+MIRAS 架构训练
产出 161MB 的专家特定模型

📈 模型统计

类别	数量	总大小
核心模型	1个（推理用）	61MB
专家特定模型	3个	~500MB
动态专家模型	12个	~61MB
内置专家	11个	共享核心模型

总计：27个专家能力，模型总大小约 620MB

文档更新时间：2026-01-18