本研究评估了大型语言模型在文献综述写作中的能力,并提出了自动评估框架。尽管取得了一定进展,但高级模型仍难以避免生成虚构的参考文献,且不同模型在各学科的表现存在差异,为未来研究提供了重要见解。
完成下面两步后,将自动完成登录并继续当前操作。