小红花·文摘

本文提出了一种结合离线强化学习与在线强化学习的方法WSRL（Warm-start RL），旨在解决微调过程中的灾难性遗忘问题。WSRL通过在在线微调初期收集少量数据，有效利用预训练知识，提升微调效率和性能，避免依赖大量离线数据。