Pediatric Benchmark: A Comprehensive Chinese Pediatric Dataset for Benchmarking Large Language Models

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究构建了首个中文儿科数据集PediaBench,包含4625个客观问题和1632个主观问题,涵盖12种儿科疾病。实验结果表明,LLMs在中文儿科问题处理上存在局限性,提示未来改进方向。

🎯

关键要点

  • 本研究构建了首个中文儿科数据集PediaBench。
  • PediaBench包含4625个客观问题和1632个主观问题。
  • 数据集涵盖12种儿科疾病。
  • 综合评分标准可以全面评估LLMs在儿科问题解答中的能力。
  • 实验结果显示LLMs在中文环境中存在应对儿科问题的局限性。
  • 研究提示未来改进方向。
➡️

继续阅读