小红花·文摘

本研究提出了CAMEL框架，旨在提高连续动作空间中强化学习的效率和收敛性。通过结合大型语言模型生成的次优策略，CAMEL利用动态动作屏蔽和自适应epsilon屏蔽机制，显著提升样本效率，并在多任务中展现出强大的适应性。