小数据集,巨大增益:通过基于模型的增强学习的离线预训练来提升性能
📝
内容提要
基于离线数据的强化学习预训练改进的模型数据增强策略,可以减少所需数据规模,并大幅提高在线微调效果和降低环境交互次数。
🏷️
标签
➡️
基于离线数据的强化学习预训练改进的模型数据增强策略,可以减少所需数据规模,并大幅提高在线微调效果和降低环境交互次数。