小红花·文摘

本研究提出了TCM-3CEval基准，评估大型语言模型在传统中医学中的表现，涵盖核心知识、经典文本理解和临床决策三个维度。研究发现，具备中文背景的模型在经典文本解读和临床推理方面表现更佳，为中医领域的AI评估提供了标准和优化建议。