专家测试评分和报告生成使用指南

创建日期: 2026-02-03
功能版本: v1.0


📋 功能概述

专家测试评分系统提供了完整的测试评估和报告生成功能:

  1. 自动评分系统 - AI评估回答的共情度、专业度、实用度
  2. 测试报告自动生成 - 自动生成包含所有测试结果的Markdown报告
  3. 报告导出 - 支持下载和复制Markdown格式报告

🚀 使用流程

步骤1:进入测试模式

  1. 访问 /developer/experts
  2. 找到"心理治疗专家"
  3. 点击"🧪 测试"按钮
  4. 在新标签页打开对话页面,自动选择专家

步骤2:进行测试对话

方式一:使用预设测试用例

  • 侧边栏显示"🧪 心理治疗测试用例"区域
  • 点击测试用例按钮自动填充问题并发送

方式二:手动输入问题

  • 在输入框输入任意问题
  • 点击发送或按Enter键

步骤3:评估回答质量

  1. 专家回答后,回答下方会显示"⭐ 评估回答质量"按钮
  2. 点击按钮开始评估
  3. 等待3-10秒(AI评估中)
  4. 显示评分结果:
    • 共情度:0-100分(是否表达理解和共情)
    • 专业度:0-100分(是否专业、准确)
    • 实用度:0-100分(是否提供实用建议)
    • 总分:加权平均分(共情30% + 专业40% + 实用30%)
    • 优点:回答的亮点
    • 建议:改进建议

步骤4:生成测试报告

  1. 完成至少一个测试用例的评估后
  2. 侧边栏会显示"📄 生成测试报告 (N个测试)"按钮
  3. 点击按钮
  4. 输入测试者姓名(可选)
  5. 输入备注(可选)
  6. 系统自动生成测试报告

步骤5:查看和导出报告

报告预览窗口显示:

  • 测试结果汇总表格
  • 平均分统计
  • 详细测试结果
  • 改进建议
  • 结论

导出方式:

  1. 下载Markdown报告 - 点击"📥 下载Markdown报告"按钮
  2. 复制报告 - 点击"📋 复制报告"按钮,然后粘贴到文档中

📊 评分标准

共情度 (Empathy) - 30%权重

评估维度:

  • ✅ 是否表达理解和共情(如"我能理解你的感受"、"这听起来确实很难")
  • ✅ 语气是否温暖、非评判性
  • ✅ 是否给予充分的表达空间
  • ✅ 是否使用共情语言

评分范围:0-100分

专业度 (Professionalism) - 40%权重

评估维度:

  • ✅ 是否基于心理学理论(如CBT、人本主义等)
  • ✅ 是否准确、科学
  • ✅ 是否遵守伦理规范
  • ✅ 是否正确处理危机情况

评分范围:0-100分

实用度 (Practicality) - 30%权重

评估维度:

  • ✅ 是否提供具体可行的策略和技巧
  • ✅ 是否给出可操作的建议
  • ✅ 是否帮助用户自我探索和发展应对能力

评分范围:0-100分

总分计算

总分 = 共情度 × 0.3 + 专业度 × 0.4 + 实用度 × 0.3

📄 测试报告格式

生成的Markdown报告包含以下部分:

1. 报告头部

  • 专家名称
  • 测试时间
  • 测试者姓名
  • 专家ID

2. 测试结果汇总表格

测试场景 共情度 专业度 实用度 总分
测试用例1: 焦虑情绪 ★★★★★ 95.0 ★★★★☆ 88.0 ★★★★☆ 90.0 90.7/100
... ... ... ... ...

3. 平均分统计

  • 平均共情度
  • 平均专业度
  • 平均实用度
  • 综合总分

4. 详细测试结果

每个测试用例包含:

  • 问题和回答
  • 各维度评分和说明
  • 优点列表
  • 不足列表

5. 改进建议

汇总所有测试用例的建议

6. 结论

根据综合总分给出结论:

  • ≥90分:专家功能优秀,可以进入下一步(发布到市场)
  • 80-89分:专家功能良好,建议根据改进建议优化后发布
  • ⚠️ 70-79分:专家功能基本可用,需要根据改进建议进行优化
  • <70分:专家功能需要改进,建议重新训练或调整系统提示词

🔧 API接口

1. 评估单个测试用例

端点: POST /api/expert-test/score

请求体:

{
  "expert_id": "psychotherapy_expert",
  "question": "我最近总是很焦虑,晚上睡不着,白天也无法集中注意力。",
  "answer": "我能理解你的感受...",
  "test_case_name": "测试用例1: 焦虑情绪"
}

响应:

{
  "success": true,
  "score": {
    "test_case_name": "测试用例1: 焦虑情绪",
    "question": "...",
    "answer": "...",
    "empathy_score": 95.0,
    "professionalism_score": 88.0,
    "practicality_score": 90.0,
    "total_score": 90.7,
    "feedback": {
      "empathy_feedback": "很好地表达了理解和共情",
      "professionalism_feedback": "基于CBT理论,专业准确",
      "practicality_feedback": "提供了实用的放松技巧",
      "strengths": ["共情表达充分", "专业术语准确"],
      "weaknesses": [],
      "suggestions": ["可以增加更多案例参考"]
    }
  }
}

2. 生成测试报告

端点: POST /api/expert-test/report

请求体:

{
  "expert_id": "psychotherapy_expert",
  "expert_name": "心理治疗专家",
  "test_cases": [
    {
      "test_case_name": "测试用例1: 焦虑情绪",
      "question": "...",
      "answer": "...",
      "empathy_score": 95.0,
      "professionalism_score": 88.0,
      "practicality_score": 90.0,
      "total_score": 90.7,
      "feedback": {...}
    }
  ],
  "tester_name": "MBE开发者",
  "notes": ""
}

响应:

{
  "success": true,
  "report": {
    "report_id": "test_report_psychotherapy_expert_1706947200",
    "expert_id": "psychotherapy_expert",
    "expert_name": "心理治疗专家",
    "test_date": "2026-02-03",
    "tester_name": "MBE开发者",
    "test_cases": [...],
    "average_scores": {
      "empathy": 92.3,
      "professionalism": 89.5,
      "practicality": 91.0,
      "total": 90.8
    },
    "overall_score": 90.8,
    "suggestions": ["建议1", "建议2"],
    "markdown_report": "# 心理治疗专家 测试报告\n\n..."
  }
}

💡 使用技巧

1. 批量测试

  • 可以连续进行多个测试用例
  • 每个回答都可以单独评估
  • 所有评估结果会自动保存

2. 查看历史评分

  • 评分结果会显示在对应的回答下方
  • 可以随时查看之前的评分

3. 报告定制

  • 可以输入测试者姓名和备注
  • 报告会包含这些信息

4. 报告保存

  • 下载的Markdown文件可以保存到 tests/ 目录
  • 文件名格式:{专家名称}_测试报告_{日期}.md

⚠️ 注意事项

  1. 评分时间:每次评估需要3-10秒,请耐心等待
  2. 专家识别:只有心理治疗相关专家才会显示评分按钮
  3. 测试用例识别:系统会自动识别预设的3个测试用例
  4. 报告生成:至少需要评估1个回答才能生成报告
  5. 网络要求:需要稳定的网络连接调用AI评估API

🎯 示例报告

报告文件示例:tests/psychotherapy_expert_test.md

# 心理治疗专家 测试报告

**测试时间**: 2026-02-03  
**测试者**: MBE开发者  
**专家ID**: psychotherapy_expert

---

## 📊 测试结果汇总

| 测试场景 | 共情度 | 专业度 | 实用度 | 总分 |
|---------|-------|-------|-------|------|
| 测试用例1: 焦虑情绪 | ★★★★★ 95.0 | ★★★★☆ 88.0 | ★★★★☆ 90.0 | 90.7/100 |
| 测试用例2: 职业困惑 | ★★★★☆ 88.0 | ★★★★★ 92.0 | ★★★★☆ 89.0 | 89.8/100 |
| 测试用例3: 危机情况 | ★★★★★ 96.0 | ★★★★★ 95.0 | ★★★★★ 94.0 | 95.0/100 |

---

## 📈 平均分统计

- **平均共情度**: 93.0/100
- **平均专业度**: 91.7/100
- **平均实用度**: 91.0/100
- **综合总分**: 91.8/100

---

## ✅ 结论

✅ **专家功能优秀**,可以进入下一步(发布到市场)

**综合评分**: 91.8/100

🔗 相关链接

  • 专家管理页面:/developer/experts
  • 对话测试页面:/ui/chat?expert_id={expert_id}
  • API文档:/api/expert-test/score/api/expert-test/report