本研究提出了TCM-3CEval基准,评估大型语言模型在传统中医学中的表现,涵盖核心知识、经典文本理解和临床决策三个维度。研究发现,具备中文背景的模型在经典文本解读和临床推理方面表现更佳,为中医领域的AI评估提供了标准和优化建议。
完成下面两步后,将自动完成登录并继续当前操作。