这项研究介绍了ALCE,一个用于自动评估大型语言模型(LLMs)引用质量的基准,强调了检索增强生成(RAG)在流畅度、正确性和引用质量方面的改进空间。研究探讨了RAG的不同范式及其评估方法,并提出了未来研究方向,以提升LLMs的准确性和可靠性。
本研究提出了不忠实最小分组(BUMP)基准测试,用于评估长文本自动摘要的信度,并介绍了ALCE和ALiiCE等自动评估框架。研究指出大型语言模型在生成摘要和引用时面临挑战,并提出了改进引用质量的训练框架FRONT,显示出显著的提升潜力。
完成下面两步后,将自动完成登录并继续当前操作。