本文提出了一种名为SelfCite的自监督对齐方法,旨在解决大型语言模型生成引用内容不足的问题。通过上下文消融技术,SelfCite利用模型自身的奖励信号生成高质量的句子级引用。研究表明,该方法在LongBench-Cite基准测试中显著提高了引用质量,F1得分提升了5.3个百分点。
本研究提出CiteBART模型,旨在解决科研写作中的引用生成问题,特别是在引用价值判断和本地引用推荐方面。CiteBART基于引用标记掩蔽的BART预训练模型,显著提升了引用推荐效果,尤其在大型基准测试中表现优异。
本研究针对大型语言模型在引用生成中的挑战,建立了自动评估体系和双语知识库,包含32022条引用。实验结果表明,特定引用指标能有效提升生成质量,缩小模型与人类期望之间的差距。
这项研究介绍了ALCE基准,用于评估大型语言模型(LLMs)在流畅度、正确性和引用质量方面的表现。研究发现,商业模型在短任务上优于开源模型,但在长依赖任务中表现不佳。提出了细粒度奖励训练框架和Ada-LEval基准,以评估LLMs在长上下文理解中的能力,结果显示当前模型在复杂推理任务中表现欠佳。此外,推出了Citekit工具包,旨在提高引用生成的质量和准确性。
本文提出了一种细粒度奖励的训练框架,以提高大型语言模型在引用生成和回答正确性方面的表现。通过多个基准测试验证,细粒度奖励显著提升了模型性能,超越了GPT-3.5-turbo。此外,研究还介绍了ALCE评测基准和自我认可框架,以减少生成内容中的事实错误,提高模型的可信度和可验证性。
完成下面两步后,将自动完成登录并继续当前操作。