最近研究发现,大规模语言模型在推理方面有进展,但传统测试基准无法完全展现其推理能力。为此,引入了一种新的问答任务RRIP。研究评估了两个流行的LLMs在传统问答任务和RRIP任务上的表现,结果表明它们在RRIP任务上表现下降。建议未来训练时应将冗余信息纳入训练数据,以提高在RRIP任务上的性能。
正在访问的资源需要验证您是否真人。
或在微信中搜索公众号“小红花技术领袖”并关注
第二步:在公众号对话中发送验证码: