🤖 MBE AI驱动开发指南
版本: v2.0
更新时间: 2026-01-28
核心理念: 所有开发工作由AI完成,人类通过对话驱动
🎯 核心理念
传统模式:
人类编写代码 → 人类测试 → 人类部署
AI驱动模式:
人类对话 → AI理解 → AI编码 → AI测试 → 自动部署
目标:
人类只需要清晰描述需求,AI完成所有技术工作
🏗️ 完整架构
环境与CI/CD流程
┌─────────────────────────────────────────────────────────────┐
│ 人类 (通过Cursor对话) │
└─────────────────────┬───────────────────────────────────────┘
↓
┌─────────────────────────────────────────────────────────────┐
│ AI Assistant (Cursor) │
│ - 理解需求 │
│ - 生成代码 │
│ - 编写测试 │
│ - 更新文档 │
│ - 创建PR │
└─────────────────────┬───────────────────────────────────────┘
↓
┌─────────────────────────────────────────────────────────────┐
│ Git Repository │
│ - feature/xxx 分支推送 │
│ - 触发CI/CD Pipeline │
└─────────────────────┬───────────────────────────────────────┘
↓
┌─────────────────────────────────────────────────────────────┐
│ CI/CD Pipeline (已实现) │
│ ✅ 自动测试 (pytest, flake8, mypy) │
│ ✅ 自动构建 (Docker镜像) │
│ ✅ 自动部署到开发环境 │
│ ✅ 集成测试验证 │
└─────────────────────┬───────────────────────────────────────┘
↓
┌─────────────────────────────────────────────────────────────┐
│ 开发环境 (dev.hi-maker.com) │
│ - 自动部署最新代码 │
│ - 运行集成测试 │
│ - 生成测试报告 │
└─────────────────────┬───────────────────────────────────────┘
↓
测试通过?
↓ Yes
┌─────────────────────────────────────────────────────────────┐
│ 生产环境 (mbe.hi-maker.com) │
│ - 手动确认发布 (人类批准) │
│ - 自动备份数据 │
│ - 滚动部署 │
│ - 健康检查 │
└─────────────────────────────────────────────────────────────┘
💬 AI驱动的开发流程
1. 需求对话模式
场景1: 添加新功能
人类:
"我想为民事律师专家添加system_prompt优化,
让它能够主动引用法律条文,目标是法律引用
覆盖率从40%提升到80%以上"
AI (Cursor):
1. 分析需求
├─→ 理解目标: system_prompt优化
├─→ 识别关键指标: 法律引用覆盖率
└─→ 确定范围: 民事律师专家
2. 方案设计
├─→ 读取现有配置
├─→ 分析问题根因
└─→ 设计优化方案
3. 实施
├─→ 创建分支 feature/system-prompt-optimization
├─→ 编写system_prompt文本
├─→ 更新配置文件
├─→ 编写测试用例
└─→ 提交代码
4. 验证
├─→ 本地测试
├─→ 推送触发CI/CD
├─→ 自动部署到开发环境
└─→ 运行集成测试
5. 反馈
└─→ "已完成!测试结果: 法律引用覆盖率100%"
场景2: 修复Bug
人类:
"民事律师的回答中混入了面包烘焙的知识,
帮我修复知识库隔离问题"
AI (Cursor):
1. 问题诊断
├─→ 查看日志分析
├─→ 检查代码逻辑
└─→ 定位问题: 缺少kb_id过滤
2. 快速修复
├─→ 创建 hotfix/kb-isolation 分支
├─→ 修改 dynamic_expert.py
├─→ 添加 kb_id 过滤逻辑
└─→ 编写测试验证
3. 部署验证
├─→ 推送代码
├─→ CI/CD自动测试
├─→ 部署到开发环境
└─→ 验证混入率: 30% → 0%
4. 生产发布
└─→ "已修复!是否部署到生产?"
场景3: 性能优化
人类:
"回答速度太慢了,帮我优化一下"
AI (Cursor):
1. 性能分析
├─→ 运行性能测试
├─→ 分析瓶颈: 嵌入模型加载慢
└─→ 提出方案: 缓存优化
2. 优化实施
├─→ 实现嵌入向量缓存
├─→ 优化数据库查询
└─→ 添加性能测试
3. 效果验证
├─→ 响应时间: 5s → 2s
├─→ 吞吐量提升50%
└─→ "优化完成,响应速度提升60%"
🤖 AI工作流程详解
AI任务分解
人类需求 (自然语言)
↓
AI理解和规划
├─→ 需求分析
├─→ 技术方案
├─→ 任务分解
└─→ 风险评估
↓
AI执行
├─→ 编写代码
│ ├─→ 读取现有代码
│ ├─→ 生成新代码
│ └─→ 符合规范
│
├─→ 编写测试
│ ├─→ 单元测试
│ ├─→ 集成测试
│ └─→ 测试覆盖率
│
├─→ 更新文档
│ ├─→ 代码注释
│ ├─→ API文档
│ └─→ 变更日志
│
└─→ 代码审查
├─→ 自我审查
├─→ 质量检查
└─→ 安全检查
↓
CI/CD自动化
├─→ 代码推送
├─→ 触发Pipeline
├─→ 自动测试
├─→ 自动构建
└─→ 自动部署
↓
AI验证和反馈
├─→ 检查CI/CD结果
├─→ 分析测试报告
├─→ 验证功能
└─→ 向人类汇报
📝 对话模板
功能开发对话
模板:
"我想[实现什么功能],目标是[达到什么效果],
需要考虑[特殊要求]"
示例1:
"我想为律师专家添加案例查询功能,目标是能够
验证案号真伪,需要考虑性能和准确性"
示例2:
"我想优化知识库检索速度,目标是P95响应时间
从5秒降到2秒以内,不能影响准确率"
AI响应模式:
1. 确认需求: "理解您的需求是..."
2. 提出方案: "我建议..."
3. 征求意见: "这个方案可以吗?"
4. 开始实施: "好的,我开始实施..."
5. 进度更新: "已完成X,正在Y..."
6. 完成报告: "✅ 已完成!测试结果..."
Bug修复对话
模板:
"[描述问题现象],帮我修复"
示例1:
"用户报告民事律师回答质量下降,经常出现
'我没有相关信息'的回复,帮我诊断和修复"
示例2:
"开发环境无法访问,域名报502错误,
帮我排查问题"
AI响应模式:
1. 问题确认: "让我先检查..."
2. 诊断分析: "发现问题: ..."
3. 修复方案: "建议修复方式: ..."
4. 快速实施: "正在修复..."
5. 验证结果: "✅ 已修复并验证"
配置更新对话
模板:
"需要更新[配置项],改成[新值],
[为什么要改]"
示例:
"需要更新民事律师的system_prompt,
添加更详细的法律引用指导,因为现在
引用率只有40%太低了"
AI响应模式:
1. 配置查看: "当前配置是..."
2. 方案设计: "建议修改为..."
3. 风险评估: "这个改动会影响..."
4. 实施: "正在更新..."
5. 验证: "✅ 已更新并生效"
🔄 CI/CD Pipeline详解
已实现的自动化流程
# 触发条件
on:
push:
branches: [develop, feature/*, hotfix/*]
pull_request:
branches: [develop, main]
# Pipeline阶段
stages:
1. 代码检查 (5分钟)
├─→ flake8 (代码规范)
├─→ mypy (类型检查)
├─→ black (格式检查)
└─→ 安全扫描
2. 测试 (10分钟)
├─→ 单元测试 (pytest)
├─→ 覆盖率检查 (>70%)
├─→ 集成测试
└─→ 性能测试
3. 构建 (5分钟)
├─→ Docker镜像构建
├─→ 镜像推送到Registry
└─→ 镜像安全扫描
4. 部署 (10分钟)
├─→ 部署到开发环境
├─→ 健康检查
├─→ 烟雾测试
└─→ 通知结果
总耗时: ~30分钟
AI与CI/CD协作
┌─────────────────────────────────────┐
│ AI推送代码 │
│ git push origin feature/xxx │
└──────────────┬──────────────────────┘
↓
┌─────────────────────────────────────┐
│ CI/CD触发 │
│ - GitHub/GitLab Webhook │
└──────────────┬──────────────────────┘
↓
┌─────────────────────────────────────┐
│ 自动化测试和构建 │
│ (无需人工干预) │
└──────────────┬──────────────────────┘
↓
成功? ──No──→ AI分析失败原因
│ ├─→ 查看日志
│ ├─→ 修复问题
│ └─→ 重新推送
Yes
↓
┌─────────────────────────────────────┐
│ 自动部署到开发环境 │
└──────────────┬──────────────────────┘
↓
┌─────────────────────────────────────┐
│ AI验证部署结果 │
│ - 运行测试脚本 │
│ - 检查日志 │
│ - 验证功能 │
└──────────────┬──────────────────────┘
↓
┌─────────────────────────────────────┐
│ AI向人类汇报 │
│ "✅ 功能已部署到开发环境, │
│ 测试通过率100%,是否发布到生产?" │
└─────────────────────────────────────┘
🎯 实际工作场景
完整的一天工作流程
09:00 - 人类上线
人类: "早上好,昨天的部署情况怎么样?"
AI: "✅ 昨晚部署的system_prompt优化已稳定运行,
监控数据显示法律引用率提升到92%"
09:15 - 查看反馈
人类: "帮我看看用户反馈"
AI: "分析了50条用户对话,发现2个问题:
1. 有3个用户询问举证流程,当前回答不够详细
2. 有1个用户问到涉外案件,但我们缺少这部分知识
建议:
1. 补充举证流程指导模板
2. 添加涉外法律专家"
10:00 - 功能开发
人类: "好,先做第一个,补充举证指导"
AI: "收到!开始实施...
[5分钟后]
✅ 已完成:
1. 在system_prompt中添加了举证指导模板
2. 覆盖民事诉讼常见12种案件类型
3. 已推送到开发环境
4. 测试通过: 10/10问题都有举证指导
查看详情: dev.hi-maker.com"
11:00 - 验证和发布
人类: "效果不错,发布到生产"
AI: "开始生产发布流程...
[15分钟后]
✅ 发布完成:
1. 已备份生产数据
2. 滚动部署完成
3. 健康检查通过
4. 已运行10个测试案例验证
5. 监控正常,无错误
举证指导覆盖率: 20% → 85%"
14:00 - 持续监控
人类: "帮我持续监控生产环境"
AI: "已启动监控,将每小时汇报一次异常
当前状态:
- 请求数: 正常
- 响应时间: P95 2.3s
- 错误率: 0.05%
- 用户满意度: 4.5/5
如有异常会立即通知您"
16:00 - 问题处理
AI: "⚠️ 检测到异常:
最近30分钟错误率上升到2%
原因: 数据库连接池耗尽
已自动采取临时措施:
1. 增加连接池大小
2. 添加重试机制
建议长期优化:
1. 优化SQL查询
2. 添加Redis缓存
需要我实施吗?"
人类: "先做临时修复,长期优化排到下周"
AI: "✅ 临时修复已部署,错误率恢复到0.1%
已创建任务: 优化数据库性能 (排期: 下周)"
17:30 - 日报总结
AI: "今日工作总结:
✅ 完成:
1. 举证指导功能上线 (覆盖率 20%→85%)
2. 修复数据库连接池问题
📊 数据:
- 部署次数: 2
- 测试通过率: 100%
- 线上稳定性: 99.9%
- 用户满意度: 4.5/5
📝 建议:
- 下周排期数据库性能优化
- 考虑添加涉外法律专家
明天见!"
🚀 高级AI能力
1. 主动监控和预警
AI持续监控:
├─→ 性能指标
│ ├─→ 响应时间
│ ├─→ 吞吐量
│ └─→ 资源使用
│
├─→ 错误日志
│ ├─→ 实时分析
│ ├─→ 模式识别
│ └─→ 根因分析
│
├─→ 用户反馈
│ ├─→ 对话分析
│ ├─→ 问题识别
│ └─→ 改进建议
│
└─→ 系统健康
├─→ 服务状态
├─→ 依赖检查
└─→ 容量规划
主动通知:
"⚠️ 检测到异常,已自动修复,详情..."
"📊 本周性能报告,建议优化..."
"💡 发现改进机会,建议实施..."
2. 智能决策支持
场景: 性能优化决策
人类: "系统响应慢了"
AI分析:
1. 性能数据分析
- P95响应时间: 5.2s (目标: <2s)
- 瓶颈: 知识库检索 (占用3.8s)
2. 方案对比
方案A: 优化嵌入模型
- 成本: 低 (代码优化)
- 效果: 中 (预计提升30%)
- 风险: 低
- 时间: 2小时
方案B: 添加Redis缓存
- 成本: 中 (新增服务)
- 效果: 高 (预计提升70%)
- 风险: 中 (缓存一致性)
- 时间: 4小时
方案C: 切换到GPU
- 成本: 高 (硬件成本)
- 效果: 最高 (预计提升90%)
- 风险: 低
- 时间: 1小时
3. AI推荐
"建议采用方案B + 方案A组合:
1. 先实施方案A (快速改善)
2. 再实施方案B (长期优化)
预期效果: 响应时间降到1.5s
总耗时: 6小时
风险可控"
人类: "好,就这么做"
AI: "收到,开始实施..."
3. 自动化运维
定时任务 (AI自动执行):
每日:
├─→ 数据备份
├─→ 日志清理
├─→ 性能报告
└─→ 安全扫描
每周:
├─→ 依赖更新检查
├─→ 技术债务盘点
├─→ 容量规划分析
└─→ 用户反馈总结
每月:
├─→ 安全漏洞扫描
├─→ 性能基准测试
├─→ 架构健康检查
└─→ 成本优化建议
异常处理 (AI自动):
- 服务重启
- 流量切换
- 资源扩容
- 故障通知
📊 AI工作质量保证
代码质量检查
AI自我检查清单:
代码质量:
✅ 符合Python规范 (PEP 8)
✅ 类型注解完整
✅ 代码可读性良好
✅ 无明显性能问题
✅ 错误处理完善
✅ 日志记录充分
测试覆盖:
✅ 单元测试覆盖率 >70%
✅ 关键路径100%覆盖
✅ 边界条件测试
✅ 异常情况测试
文档完善:
✅ 代码注释清晰
✅ API文档更新
✅ CHANGELOG更新
✅ README更新 (如需要)
安全检查:
✅ 无SQL注入风险
✅ 无XSS风险
✅ 敏感信息加密
✅ 权限控制正确
如果任何一项不通过,AI会:
1. 自动修复
2. 重新检查
3. 确认通过后才提交
CI/CD集成验证
推送前验证:
├─→ 本地测试通过
├─→ 代码格式正确
└─→ 类型检查通过
推送后监控:
├─→ CI/CD状态
├─→ 测试结果
├─→ 构建状态
└─→ 部署状态
失败处理:
1. 分析失败原因
2. 自动修复 (如可能)
3. 通知人类 (如需要)
4. 重新触发
🎓 最佳实践
如何与AI高效协作
清晰描述需求
✅ 好的描述:
"我想优化民事律师的回答质量,具体是:
1. 增加法律条文引用,覆盖率从40%提升到80%
2. 添加举证指导,覆盖常见案件类型
3. 回答结构化,分点陈述
目标是提升用户满意度"
❌ 不好的描述:
"回答质量不行,优化一下"
原因: AI需要具体目标和衡量标准
提供充分上下文
✅ 好的上下文:
"用户反馈离婚财产分割案件的回答不够详细,
现在只有简单的法律原则,缺少具体的计算方法
和分割比例说明。参考案例:
用户问'夫妻共同财产100万,离婚怎么分?'
现在回答: '根据民法典第1087条平均分割'
期望回答: 应该包含具体分割比例、特殊情况处理等"
❌ 不好的上下文:
"离婚财产分割回答不好"
及时反馈
AI完成后会询问:
"✅ 已完成,测试结果...
这个方案满意吗?"
✅ 好的反馈:
"效果不错,但是举证指导还可以更详细一些,
比如需要准备哪些材料、如何收集证据等"
❌ 不好的反馈:
"还行吧"
AI会根据反馈继续优化
🚨 异常情况处理
CI/CD失败处理
场景: CI/CD Pipeline失败
AI自动:
1. 检测失败
"⚠️ CI/CD失败: 单元测试test_xxx失败"
2. 分析原因
"失败原因: 测试数据不匹配
预期: {'status': 'success'}
实际: {'status': 'error'}"
3. 修复尝试
"正在修复..."
- 检查代码逻辑
- 更新测试用例
- 重新推送
4. 验证
"✅ 已修复,CI/CD重新运行中..."
5. 汇报
"✅ CI/CD通过,已自动修复问题"
如果AI无法自动修复:
"❌ 无法自动修复,需要您的帮助
问题: ...
建议: ...
需要手动检查: ..."
生产环境故障
AI应急响应流程:
1. 检测 (实时)
"🚨 生产环境异常:
- 错误率: 0.1% → 5%
- 时间: 2026-01-28 14:30
- 影响: 约500个用户"
2. 分析 (2分钟内)
"根因分析:
- 数据库连接超时
- 可能原因: 连接池耗尽
- 相关代码: dynamic_expert.py:234"
3. 临时修复 (5分钟内)
"正在执行临时修复:
✅ 已重启数据库连接池
✅ 已增加连接数
✅ 错误率恢复到0.2%"
4. 验证 (5分钟)
"监控验证:
✅ 错误率正常
✅ 响应时间正常
✅ 用户反馈正常"
5. 根本修复 (30分钟内)
"长期修复方案:
1. 优化数据库查询
2. 添加连接池监控
3. 实施连接复用
是否立即实施?"
6. 事后总结
"故障报告已生成:
- 影响时间: 10分钟
- 影响用户: 约500人
- 根本原因: ...
- 预防措施: ...
建议下周进行数据库优化专项"
📈 持续改进
AI学习和进化
AI会从每次交互中学习:
1. 需求模式识别
"注意到您经常需要优化专家回答质量,
我已总结了通用优化流程:
1. 分析用户反馈
2. 优化system_prompt
3. 验证效果
下次可以直接说'优化律师专家',
我会自动执行完整流程"
2. 问题预测
"根据历史数据,预计本周五下午
会出现流量高峰,建议提前:
1. 扩容服务器
2. 预热缓存
3. 检查数据库连接池
需要我提前准备吗?"
3. 最佳实践总结
"过去一个月的优化经验总结:
- 优化system_prompt效果最好 (成本低效果好)
- 知识库内容足够,重点是使用机制
- 快速迭代验证比一次性大改更有效
建议后续优化也采用这个思路"
🎯 成功案例
System Prompt优化 (今天完成)
需求对话:
人类: "法律条文库和判例已经非常丰富了,
但律师专家的回答还是缺少法律引用"
AI分析:
"理解了,问题不在内容量,而在使用机制。
我来检查一下system_prompt配置..."
[2分钟后]
"发现问题! system_prompt是空的,
AI不知道应该引用法律条文。
我建议添加详细的system_prompt,
包括:
1. 法律引用标准
2. 举证指导格式
3. 回答结构规范
预计效果: 法律引用覆盖率 40% → 80%+
需要我实施吗?"
人类: "好,开始"
AI实施:
[1小时后]
"✅ 已完成并验证:
实施内容:
1. 设计2000+字符system_prompt
2. 更新experts/index.json
3. 重启生产容器
4. 运行10个测试案例
测试结果:
- 法律引用覆盖率: 100% (10/10)
- 举证指导覆盖率: 80% (8/10)
- 专业性评分: 4.5/5
- 回答结构: 100%符合要求
成本: 0元
耗时: 2小时
效果: 显著提升"
总结:
- 无需增加知识库内容
- 只优化了使用机制
- 成本极低效果显著
- AI全程自主完成
📚 命令参考
常用对话指令
功能开发:
"添加XXX功能"
"实现XXX"
"开发XXX模块"
Bug修复:
"修复XXX问题"
"解决XXX错误"
"XXX不工作了,帮我修"
性能优化:
"优化XXX性能"
"加快XXX速度"
"XXX太慢了"
配置更新:
"更新XXX配置"
"修改XXX参数"
"调整XXX设置"
测试验证:
"测试XXX功能"
"验证XXX是否工作"
"运行XXX测试"
部署发布:
"部署到开发环境"
"发布到生产"
"回滚到上个版本"
监控查询:
"查看系统状态"
"检查错误日志"
"分析性能数据"
文档查询:
"XXX怎么实现的?"
"XXX的文档在哪?"
"解释XXX的代码"
✅ 总结
AI驱动开发的优势
效率提升:
✅ 开发速度: 提升3-5倍
✅ 测试覆盖: 自动化100%
✅ 文档维护: 实时同步
✅ 部署速度: 分钟级
质量保证:
✅ 代码质量: 自动检查
✅ 测试覆盖: 强制要求
✅ 最佳实践: 内置规范
✅ 安全检查: 自动扫描
成本降低:
✅ 人力成本: 大幅降低
✅ 沟通成本: 对话驱动
✅ 维护成本: 自动化运维
✅ 培训成本: AI自我学习
体验提升:
✅ 自然交互: 对话式
✅ 即时反馈: 实时响应
✅ 主动服务: 预测需求
✅ 持续优化: 自动改进
关键成功因素
1. 清晰沟通
- 明确需求
- 提供上下文
- 及时反馈
2. 信任AI
- 相信AI能力
- 让AI自主决策
- 只在必要时干预
3. CI/CD就绪
- 自动化测试
- 自动化部署
- 监控告警完善
4. 持续迭代
- 小步快跑
- 快速验证
- 持续优化
AI驱动的未来已来! 🚀
文档版本: v2.0
最后更新: 2026-01-28
维护者: AI + Human协作