Pediatric Benchmark: A Comprehensive Chinese Pediatric Dataset for Benchmarking Large Language Models
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究构建了首个中文儿科数据集PediaBench,包含4625个客观问题和1632个主观问题,涵盖12种儿科疾病。实验结果表明,LLMs在中文儿科问题处理上存在局限性,提示未来改进方向。
🎯
关键要点
- 本研究构建了首个中文儿科数据集PediaBench。
- PediaBench包含4625个客观问题和1632个主观问题。
- 数据集涵盖12种儿科疾病。
- 综合评分标准可以全面评估LLMs在儿科问题解答中的能力。
- 实验结果显示LLMs在中文环境中存在应对儿科问题的局限性。
- 研究提示未来改进方向。
➡️