小红花·文摘

使用大型语言模型研究中医药学领域的知识召回和综合推理能力，通过TCM-QA数据集评估LLM在零样本和少样本设置下的表现。结果显示ChatGPT在判断题中精度最高为0.688，多选题中最低为0.241。中文提示在评估中表现更好。同时评估ChatGPT生成的解释质量及其对中医药学知识理解的潜在贡献，为LLM在专业领域的适用性提供了有价值的见解，并促进了未来中医药学研究的方向。