小数据集,巨大增益:通过基于模型的增强学习的离线预训练来提升性能

📝

内容提要

基于离线数据的强化学习预训练改进的模型数据增强策略,可以减少所需数据规模,并大幅提高在线微调效果和降低环境交互次数。

🏷️

标签

➡️

继续阅读