专家测试评分和报告生成使用指南
创建日期: 2026-02-03
功能版本: v1.0
📋 功能概述
专家测试评分系统提供了完整的测试评估和报告生成功能:
- 自动评分系统 - AI评估回答的共情度、专业度、实用度
- 测试报告自动生成 - 自动生成包含所有测试结果的Markdown报告
- 报告导出 - 支持下载和复制Markdown格式报告
🚀 使用流程
步骤1:进入测试模式
- 访问
/developer/experts - 找到"心理治疗专家"
- 点击"🧪 测试"按钮
- 在新标签页打开对话页面,自动选择专家
步骤2:进行测试对话
方式一:使用预设测试用例
- 侧边栏显示"🧪 心理治疗测试用例"区域
- 点击测试用例按钮自动填充问题并发送
方式二:手动输入问题
- 在输入框输入任意问题
- 点击发送或按Enter键
步骤3:评估回答质量
- 专家回答后,回答下方会显示"⭐ 评估回答质量"按钮
- 点击按钮开始评估
- 等待3-10秒(AI评估中)
- 显示评分结果:
- 共情度:0-100分(是否表达理解和共情)
- 专业度:0-100分(是否专业、准确)
- 实用度:0-100分(是否提供实用建议)
- 总分:加权平均分(共情30% + 专业40% + 实用30%)
- 优点:回答的亮点
- 建议:改进建议
步骤4:生成测试报告
- 完成至少一个测试用例的评估后
- 侧边栏会显示"📄 生成测试报告 (N个测试)"按钮
- 点击按钮
- 输入测试者姓名(可选)
- 输入备注(可选)
- 系统自动生成测试报告
步骤5:查看和导出报告
报告预览窗口显示:
- 测试结果汇总表格
- 平均分统计
- 详细测试结果
- 改进建议
- 结论
导出方式:
- 下载Markdown报告 - 点击"📥 下载Markdown报告"按钮
- 复制报告 - 点击"📋 复制报告"按钮,然后粘贴到文档中
📊 评分标准
共情度 (Empathy) - 30%权重
评估维度:
- ✅ 是否表达理解和共情(如"我能理解你的感受"、"这听起来确实很难")
- ✅ 语气是否温暖、非评判性
- ✅ 是否给予充分的表达空间
- ✅ 是否使用共情语言
评分范围:0-100分
专业度 (Professionalism) - 40%权重
评估维度:
- ✅ 是否基于心理学理论(如CBT、人本主义等)
- ✅ 是否准确、科学
- ✅ 是否遵守伦理规范
- ✅ 是否正确处理危机情况
评分范围:0-100分
实用度 (Practicality) - 30%权重
评估维度:
- ✅ 是否提供具体可行的策略和技巧
- ✅ 是否给出可操作的建议
- ✅ 是否帮助用户自我探索和发展应对能力
评分范围:0-100分
总分计算
总分 = 共情度 × 0.3 + 专业度 × 0.4 + 实用度 × 0.3
📄 测试报告格式
生成的Markdown报告包含以下部分:
1. 报告头部
- 专家名称
- 测试时间
- 测试者姓名
- 专家ID
2. 测试结果汇总表格
| 测试场景 | 共情度 | 专业度 | 实用度 | 总分 |
|---|---|---|---|---|
| 测试用例1: 焦虑情绪 | ★★★★★ 95.0 | ★★★★☆ 88.0 | ★★★★☆ 90.0 | 90.7/100 |
| ... | ... | ... | ... | ... |
3. 平均分统计
- 平均共情度
- 平均专业度
- 平均实用度
- 综合总分
4. 详细测试结果
每个测试用例包含:
- 问题和回答
- 各维度评分和说明
- 优点列表
- 不足列表
5. 改进建议
汇总所有测试用例的建议
6. 结论
根据综合总分给出结论:
- ✅ ≥90分:专家功能优秀,可以进入下一步(发布到市场)
- ✅ 80-89分:专家功能良好,建议根据改进建议优化后发布
- ⚠️ 70-79分:专家功能基本可用,需要根据改进建议进行优化
- ❌ <70分:专家功能需要改进,建议重新训练或调整系统提示词
🔧 API接口
1. 评估单个测试用例
端点: POST /api/expert-test/score
请求体:
{
"expert_id": "psychotherapy_expert",
"question": "我最近总是很焦虑,晚上睡不着,白天也无法集中注意力。",
"answer": "我能理解你的感受...",
"test_case_name": "测试用例1: 焦虑情绪"
}
响应:
{
"success": true,
"score": {
"test_case_name": "测试用例1: 焦虑情绪",
"question": "...",
"answer": "...",
"empathy_score": 95.0,
"professionalism_score": 88.0,
"practicality_score": 90.0,
"total_score": 90.7,
"feedback": {
"empathy_feedback": "很好地表达了理解和共情",
"professionalism_feedback": "基于CBT理论,专业准确",
"practicality_feedback": "提供了实用的放松技巧",
"strengths": ["共情表达充分", "专业术语准确"],
"weaknesses": [],
"suggestions": ["可以增加更多案例参考"]
}
}
}
2. 生成测试报告
端点: POST /api/expert-test/report
请求体:
{
"expert_id": "psychotherapy_expert",
"expert_name": "心理治疗专家",
"test_cases": [
{
"test_case_name": "测试用例1: 焦虑情绪",
"question": "...",
"answer": "...",
"empathy_score": 95.0,
"professionalism_score": 88.0,
"practicality_score": 90.0,
"total_score": 90.7,
"feedback": {...}
}
],
"tester_name": "MBE开发者",
"notes": ""
}
响应:
{
"success": true,
"report": {
"report_id": "test_report_psychotherapy_expert_1706947200",
"expert_id": "psychotherapy_expert",
"expert_name": "心理治疗专家",
"test_date": "2026-02-03",
"tester_name": "MBE开发者",
"test_cases": [...],
"average_scores": {
"empathy": 92.3,
"professionalism": 89.5,
"practicality": 91.0,
"total": 90.8
},
"overall_score": 90.8,
"suggestions": ["建议1", "建议2"],
"markdown_report": "# 心理治疗专家 测试报告\n\n..."
}
}
💡 使用技巧
1. 批量测试
- 可以连续进行多个测试用例
- 每个回答都可以单独评估
- 所有评估结果会自动保存
2. 查看历史评分
- 评分结果会显示在对应的回答下方
- 可以随时查看之前的评分
3. 报告定制
- 可以输入测试者姓名和备注
- 报告会包含这些信息
4. 报告保存
- 下载的Markdown文件可以保存到
tests/目录 - 文件名格式:
{专家名称}_测试报告_{日期}.md
⚠️ 注意事项
- 评分时间:每次评估需要3-10秒,请耐心等待
- 专家识别:只有心理治疗相关专家才会显示评分按钮
- 测试用例识别:系统会自动识别预设的3个测试用例
- 报告生成:至少需要评估1个回答才能生成报告
- 网络要求:需要稳定的网络连接调用AI评估API
🎯 示例报告
报告文件示例:tests/psychotherapy_expert_test.md
# 心理治疗专家 测试报告
**测试时间**: 2026-02-03
**测试者**: MBE开发者
**专家ID**: psychotherapy_expert
---
## 📊 测试结果汇总
| 测试场景 | 共情度 | 专业度 | 实用度 | 总分 |
|---------|-------|-------|-------|------|
| 测试用例1: 焦虑情绪 | ★★★★★ 95.0 | ★★★★☆ 88.0 | ★★★★☆ 90.0 | 90.7/100 |
| 测试用例2: 职业困惑 | ★★★★☆ 88.0 | ★★★★★ 92.0 | ★★★★☆ 89.0 | 89.8/100 |
| 测试用例3: 危机情况 | ★★★★★ 96.0 | ★★★★★ 95.0 | ★★★★★ 94.0 | 95.0/100 |
---
## 📈 平均分统计
- **平均共情度**: 93.0/100
- **平均专业度**: 91.7/100
- **平均实用度**: 91.0/100
- **综合总分**: 91.8/100
---
## ✅ 结论
✅ **专家功能优秀**,可以进入下一步(发布到市场)
**综合评分**: 91.8/100
🔗 相关链接
- 专家管理页面:
/developer/experts - 对话测试页面:
/ui/chat?expert_id={expert_id} - API文档:
/api/expert-test/score、/api/expert-test/report