Q-SFT:通过监督微调实现的语言模型Q学习

📝

内容提要

本研究针对现有价值基础的强化学习(RL)在多轮任务中难以扩展的问题,提出了一种新颖的离线RL算法,将Q学习视为修改后的监督微调(SFT)问题。这种方法能够有效利用语言模型的预训练优势,并在各种任务中展现出良好的性能,具有潜在的应用价值。

🏷️

标签

➡️

继续阅读