Pediatric Benchmark: A Comprehensive Chinese Pediatric Dataset for Benchmarking Large Language Models
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究构建了首个中文儿科数据集PediaBench,包含4625个客观问题和1632个主观问题,涵盖12种儿科疾病。实验结果表明,LLMs在中文儿科问题处理上存在局限性,提示未来改进方向。
🎯
关键要点
-
本研究构建了首个中文儿科数据集PediaBench。
-
PediaBench包含4625个客观问题和1632个主观问题。
-
数据集涵盖12种儿科疾病。
-
综合评分标准可以全面评估LLMs在儿科问题解答中的能力。
-
实验结果显示LLMs在中文环境中存在应对儿科问题的局限性。
-
研究提示未来改进方向。
➡️