小红花·文摘

本研究提出了GRAPE微调框架，有效解决了监督微调数据与目标模型分布不匹配的问题，显著提升了模型性能，实验结果显示最高提升可达17.3%。

BriefGPT - AI 论文速递 ·

该研究综述了离线强化学习在推荐系统中的应用，提出了多种提高数据效率和解决分布不匹配问题的方法。实验结果表明，这些方法在推荐性能上优于现有技术，展示了离线强化学习的潜力和未来研究方向。

BriefGPT - AI 论文速递 ·