本研究提出了CAMEL框架,旨在提高连续动作空间中强化学习的效率和收敛性。通过结合大型语言模型生成的次优策略,CAMEL利用动态动作屏蔽和自适应epsilon屏蔽机制,显著提升样本效率,并在多任务中展现出强大的适应性。
本研究比较了LoRA与全面微调在模型权重矩阵上的差异,发现LoRA模型存在“入侵维度”,而全面微调则没有。尽管两者在目标任务上表现相似,但LoRA在多任务适应性方面较弱,这对理解微调方法的影响具有重要意义。
MultiLoRA通过优化LoRA模块和参数初始化,减少顶层奇异向量的主导性,从而提升多任务适应性。相比单个LoRA,它在多个基准上表现更佳,仅增加2.5%的参数。
完成下面两步后,将自动完成登录并继续当前操作。