专家测试评分和报告生成使用指南

创建日期： 2026-02-03
功能版本： v1.0

📋 功能概述

专家测试评分系统提供了完整的测试评估和报告生成功能：

自动评分系统 - AI评估回答的共情度、专业度、实用度
测试报告自动生成 - 自动生成包含所有测试结果的Markdown报告
报告导出 - 支持下载和复制Markdown格式报告

🚀 使用流程

步骤1：进入测试模式

访问 /developer/experts
找到"心理治疗专家"
点击"🧪 测试"按钮
在新标签页打开对话页面，自动选择专家

步骤2：进行测试对话

方式一：使用预设测试用例

侧边栏显示"🧪 心理治疗测试用例"区域
点击测试用例按钮自动填充问题并发送

方式二：手动输入问题

在输入框输入任意问题
点击发送或按Enter键

步骤3：评估回答质量

专家回答后，回答下方会显示"⭐ 评估回答质量"按钮
点击按钮开始评估
等待3-10秒（AI评估中）
显示评分结果：
- 共情度：0-100分（是否表达理解和共情）
- 专业度：0-100分（是否专业、准确）
- 实用度：0-100分（是否提供实用建议）
- 总分：加权平均分（共情30% + 专业40% + 实用30%）
- 优点：回答的亮点
- 建议：改进建议

步骤4：生成测试报告

完成至少一个测试用例的评估后
侧边栏会显示"📄 生成测试报告 (N个测试)"按钮
点击按钮
输入测试者姓名（可选）
输入备注（可选）
系统自动生成测试报告

步骤5：查看和导出报告

报告预览窗口显示：

测试结果汇总表格
平均分统计
详细测试结果
改进建议
结论

导出方式：

下载Markdown报告 - 点击"📥 下载Markdown报告"按钮
复制报告 - 点击"📋 复制报告"按钮，然后粘贴到文档中

📊 评分标准

共情度 (Empathy) - 30%权重

评估维度：

✅ 是否表达理解和共情（如"我能理解你的感受"、"这听起来确实很难"）
✅ 语气是否温暖、非评判性
✅ 是否给予充分的表达空间
✅ 是否使用共情语言

评分范围：0-100分

专业度 (Professionalism) - 40%权重

评估维度：

✅ 是否基于心理学理论（如CBT、人本主义等）
✅ 是否准确、科学
✅ 是否遵守伦理规范
✅ 是否正确处理危机情况

评分范围：0-100分

实用度 (Practicality) - 30%权重

评估维度：

✅ 是否提供具体可行的策略和技巧
✅ 是否给出可操作的建议
✅ 是否帮助用户自我探索和发展应对能力

评分范围：0-100分

总分计算

总分 = 共情度 × 0.3 + 专业度 × 0.4 + 实用度 × 0.3

📄 测试报告格式

生成的Markdown报告包含以下部分：

1. 报告头部

专家名称
测试时间
测试者姓名
专家ID

2. 测试结果汇总表格

测试场景	共情度	专业度	实用度	总分
测试用例1: 焦虑情绪	★★★★★ 95.0	★★★★☆ 88.0	★★★★☆ 90.0	90.7/100
...	...	...	...	...

3. 平均分统计

平均共情度
平均专业度
平均实用度
综合总分

4. 详细测试结果

每个测试用例包含：

问题和回答
各维度评分和说明
优点列表
不足列表

5. 改进建议

汇总所有测试用例的建议

6. 结论

根据综合总分给出结论：

✅ ≥90分：专家功能优秀，可以进入下一步（发布到市场）
✅ 80-89分：专家功能良好，建议根据改进建议优化后发布
⚠️ 70-79分：专家功能基本可用，需要根据改进建议进行优化
❌ <70分：专家功能需要改进，建议重新训练或调整系统提示词

🔧 API接口

1. 评估单个测试用例

端点： POST /api/expert-test/score

请求体：

{
  "expert_id": "psychotherapy_expert",
  "question": "我最近总是很焦虑，晚上睡不着，白天也无法集中注意力。",
  "answer": "我能理解你的感受...",
  "test_case_name": "测试用例1: 焦虑情绪"
}

响应：

{
  "success": true,
  "score": {
    "test_case_name": "测试用例1: 焦虑情绪",
    "question": "...",
    "answer": "...",
    "empathy_score": 95.0,
    "professionalism_score": 88.0,
    "practicality_score": 90.0,
    "total_score": 90.7,
    "feedback": {
      "empathy_feedback": "很好地表达了理解和共情",
      "professionalism_feedback": "基于CBT理论，专业准确",
      "practicality_feedback": "提供了实用的放松技巧",
      "strengths": ["共情表达充分", "专业术语准确"],
      "weaknesses": [],
      "suggestions": ["可以增加更多案例参考"]
    }
  }
}

2. 生成测试报告

端点： POST /api/expert-test/report

请求体：

{
  "expert_id": "psychotherapy_expert",
  "expert_name": "心理治疗专家",
  "test_cases": [
    {
      "test_case_name": "测试用例1: 焦虑情绪",
      "question": "...",
      "answer": "...",
      "empathy_score": 95.0,
      "professionalism_score": 88.0,
      "practicality_score": 90.0,
      "total_score": 90.7,
      "feedback": {...}
    }
  ],
  "tester_name": "MBE开发者",
  "notes": ""
}

响应：

{
  "success": true,
  "report": {
    "report_id": "test_report_psychotherapy_expert_1706947200",
    "expert_id": "psychotherapy_expert",
    "expert_name": "心理治疗专家",
    "test_date": "2026-02-03",
    "tester_name": "MBE开发者",
    "test_cases": [...],
    "average_scores": {
      "empathy": 92.3,
      "professionalism": 89.5,
      "practicality": 91.0,
      "total": 90.8
    },
    "overall_score": 90.8,
    "suggestions": ["建议1", "建议2"],
    "markdown_report": "# 心理治疗专家 测试报告\n\n..."
  }
}

💡 使用技巧

1. 批量测试

可以连续进行多个测试用例
每个回答都可以单独评估
所有评估结果会自动保存

2. 查看历史评分

评分结果会显示在对应的回答下方
可以随时查看之前的评分

3. 报告定制

可以输入测试者姓名和备注
报告会包含这些信息

4. 报告保存

下载的Markdown文件可以保存到 tests/ 目录
文件名格式：{专家名称}_测试报告_{日期}.md

⚠️ 注意事项

评分时间：每次评估需要3-10秒，请耐心等待
专家识别：只有心理治疗相关专家才会显示评分按钮
测试用例识别：系统会自动识别预设的3个测试用例
报告生成：至少需要评估1个回答才能生成报告
网络要求：需要稳定的网络连接调用AI评估API

🎯 示例报告

报告文件示例：tests/psychotherapy_expert_test.md

# 心理治疗专家 测试报告

**测试时间**: 2026-02-03  
**测试者**: MBE开发者  
**专家ID**: psychotherapy_expert

---

## 📊 测试结果汇总

| 测试场景 | 共情度 | 专业度 | 实用度 | 总分 |
|---------|-------|-------|-------|------|
| 测试用例1: 焦虑情绪 | ★★★★★ 95.0 | ★★★★☆ 88.0 | ★★★★☆ 90.0 | 90.7/100 |
| 测试用例2: 职业困惑 | ★★★★☆ 88.0 | ★★★★★ 92.0 | ★★★★☆ 89.0 | 89.8/100 |
| 测试用例3: 危机情况 | ★★★★★ 96.0 | ★★★★★ 95.0 | ★★★★★ 94.0 | 95.0/100 |

---

## 📈 平均分统计

- **平均共情度**: 93.0/100
- **平均专业度**: 91.7/100
- **平均实用度**: 91.0/100
- **综合总分**: 91.8/100

---

## ✅ 结论

✅ **专家功能优秀**，可以进入下一步（发布到市场）

**综合评分**: 91.8/100

🔗 相关链接

专家管理页面：/developer/experts
对话测试页面：/ui/chat?expert_id={expert_id}
API文档：/api/expert-test/score、/api/expert-test/report