使用大型语言模型研究中医药学领域的知识召回和综合推理能力,通过TCM-QA数据集评估LLM在零样本和少样本设置下的表现。结果显示ChatGPT在判断题中精度最高为0.688,多选题中最低为0.241。中文提示在评估中表现更好。同时评估ChatGPT生成的解释质量及其对中医药学知识理解的潜在贡献,为LLM在专业领域的适用性提供了有价值的见解,并促进了未来中医药学研究的方向。
完成下面两步后,将自动完成登录并继续当前操作。