小红花·文摘

最近研究发现，大规模语言模型在推理方面有进展，但传统测试基准无法完全展现其推理能力。为此，引入了一种新的问答任务RRIP。研究评估了两个流行的LLMs在传统问答任务和RRIP任务上的表现，结果表明它们在RRIP任务上表现下降。建议未来训练时应将冗余信息纳入训练数据，以提高在RRIP任务上的性能。