大型语言模型的冗余信息推理能力分析

BriefGPT - AI 论文速递 BriefGPT - AI 论文速递 ·

最近研究发现,大规模语言模型在推理方面有进展,但传统测试基准无法完全展现其推理能力。为此,引入了一种新的问答任务RRIP。研究评估了两个流行的LLMs在传统问答任务和RRIP任务上的表现,结果表明它们在RRIP任务上表现下降。建议未来训练时应将冗余信息纳入训练数据,以提高在RRIP任务上的性能。

原文中文,约500字,阅读约需2分钟。
阅读原文