最近研究发现,大规模语言模型在推理方面有进展,但传统测试基准无法完全展现其推理能力。为此,引入了一种新的问答任务RRIP。研究评估了两个流行的LLMs在传统问答任务和RRIP任务上的表现,结果表明它们在RRIP任务上表现下降。建议未来训练时应将冗余信息纳入训练数据,以提高在RRIP任务上的性能。
完成下面两步后,将自动完成登录并继续当前操作。