小红花·文摘

本研究探讨了大型语言模型在生成医生笔记患者摘要时的幻觉现象。通过Factored Verification方法评估不同模型（如ChatGPT和GPT-4）生成摘要的准确性，发现幻觉频率较高。研究提出了数据过滤和联合实体生成等改进方法，以提高摘要质量并减少幻觉。结果显示，经过微调的模型在生成摘要时表现良好，且与传统评估指标相关性显著。