本研究探讨了大型语言模型在生成医生笔记患者摘要时的幻觉现象。通过Factored Verification方法评估不同模型(如ChatGPT和GPT-4)生成摘要的准确性,发现幻觉频率较高。研究提出了数据过滤和联合实体生成等改进方法,以提高摘要质量并减少幻觉。结果显示,经过微调的模型在生成摘要时表现良好,且与传统评估指标相关性显著。
完成下面两步后,将自动完成登录并继续当前操作。