本研究探讨了传统问答(QA)与逆向问答(RQA)在生成问题及回答准确性上的差异。测试16个大型语言模型后发现,RQA在数值答案上的准确性显著低于QA,而文本答案的准确性略高。研究表明,RQA的错误与问题难度相关,反映了模型在生成有效多跳问题上的不足,并提出了改进建议。
完成下面两步后,将自动完成登录并继续当前操作。