小红花·文摘

这项研究介绍了ALCE，一个用于自动评估大型语言模型（LLMs）引用质量的基准，强调了检索增强生成（RAG）在流畅度、正确性和引用质量方面的改进空间。研究探讨了RAG的不同范式及其评估方法，并提出了未来研究方向，以提升LLMs的准确性和可靠性。

BriefGPT - AI 论文速递 ·

本研究提出了不忠实最小分组（BUMP）基准测试，用于评估长文本自动摘要的信度，并介绍了ALCE和ALiiCE等自动评估框架。研究指出大型语言模型在生成摘要和引用时面临挑战，并提出了改进引用质量的训练框架FRONT，显示出显著的提升潜力。

BriefGPT - AI 论文速递 ·