基于熵引导的序列加权用于高效探索的强化学习大语言模型微调 本研究提出了一种新颖的方法,熵引导序列加权(EGSW),旨在通过根据生成输出的优势和熵动态分配权重来增强探索与利用之间的权衡。这种方法不仅提高了大语言模型微调中的样本效率,还有助于改善其他强化学习算法的应用效果。 大语言模型 强化学习