本文介绍了一种名为REFUEL的策略优化方法,提升大型语言模型在多轮对话中的长期计划能力。REFUEL通过单一模型估计$Q$值,并在自生成数据上训练,解决协变量偏移问题。实验结果表明,REFUEL在长时间多轮对话中表现优于其他方法,具有很大应用潜力。
Refuel是一种用于回答开放式问题中多义性的模型,可同时预测多个答案,使用多个来源的证据进行适应性预测,并提出一种名为往返预测的方法。该模型在AmbigQA数据集上实现了新的最先进性能,并在NQ-Open和TriviaQA上展示了有竞争力的性能。
完成下面两步后,将自动完成登录并继续当前操作。