大型语言模型的冗余信息推理能力分析

最近在大规模语言模型 (LLMs) 的研究中取得了令人印象深刻的进展，尤其在推理方面，对于实现人工智能 (AGI) 至关重要。然而，常用的测试基准可能无法完全展现这些模型在现实场景中的推理能力。为了解决这一问题，引入了一种新形式的问答任务，称为 Reasoning with Redundant Information Provided (RRIP)。该研究设计了改进版本的小学数学 8K...

最近研究发现，大规模语言模型在推理方面有进展，但传统测试基准无法完全展现其推理能力。为此，引入了一种新的问答任务RRIP。研究评估了两个流行的LLMs在传统问答任务和RRIP任务上的表现，结果表明它们在RRIP任务上表现下降。建议未来训练时应将冗余信息纳入训练数据，以提高在RRIP任务上的性能。

RRIP 冗余信息大型语言模型大规模语言模型推理能力问答任务