Pediatric Benchmark: A Comprehensive Chinese Pediatric Dataset for Benchmarking Large Language Models

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究构建了首个中文儿科数据集PediaBench,包含4625个客观问题和1632个主观问题,涵盖12种儿科疾病。实验结果表明,LLMs在中文儿科问题处理上存在局限性,提示未来改进方向。

🎯

关键要点

  • 本研究构建了首个中文儿科数据集PediaBench。

  • PediaBench包含4625个客观问题和1632个主观问题。

  • 数据集涵盖12种儿科疾病。

  • 综合评分标准可以全面评估LLMs在儿科问题解答中的能力。

  • 实验结果显示LLMs在中文环境中存在应对儿科问题的局限性。

  • 研究提示未来改进方向。

➡️

继续阅读