小红花·文摘

本研究探讨了预训练生成模型在强化学习中的应用，提出了新算法SpannerSampling，揭示了有效探索的计算-统计权衡，强调覆盖性对算法效率的重要性，并指出多轮探索能进一步提升效率。