小红花·文摘

这项研究介绍了ALCE，一个用于自动评估大型语言模型（LLMs）引用质量的基准，强调了检索增强生成（RAG）在流畅度、正确性和引用质量方面的改进空间。研究探讨了RAG的不同范式及其评估方法，并提出了未来研究方向，以提升LLMs的准确性和可靠性。