本研究提出了一种引导策略优化(GPO)框架,旨在解决部分可观察环境中强化学习的不确定性问题。该方法通过引导者与学习者的共同训练,理论上达到了与直接强化学习相当的最优性,并在多项任务中显著优于现有方法。
本研究解决了语言建模中规划模块与语言模型无法共同微调的问题。通过使用预测标签概率作为混合权重的方法,实现共同训练,优化标签分布。实验结果显示,该方法在困惑度上有明显改善。
完成下面两步后,将自动完成登录并继续当前操作。