研究比较了传统问答(QA)和逆向问答(RQA)的生成和准确性。测试16个大型语言模型发现,数值答案的RQA准确性低于QA,而文本答案的RQA略高。RQA错误与问题难度相关,显示模型在多跳问题生成上的不足,并提出了改进建议。
完成下面两步后,将自动完成登录并继续当前操作。