这项研究介绍了ALCE,一个用于自动评估大型语言模型(LLMs)引用质量的基准,强调了检索增强生成(RAG)在流畅度、正确性和引用质量方面的改进空间。研究探讨了RAG的不同范式及其评估方法,并提出了未来研究方向,以提升LLMs的准确性和可靠性。
完成下面两步后,将自动完成登录并继续当前操作。