小红花·文摘

本研究评估了大型语言模型在文献综述写作中的能力，并提出了自动评估框架。尽管取得了一定进展，但高级模型仍难以避免生成虚构的参考文献，且不同模型在各学科的表现存在差异，为未来研究提供了重要见解。