本研究提出了一种可微分数据奖励(DDR)方法,解决了检索增强生成(RAG)方法中忽视数据偏好的问题。DDR能更好地对齐RAG系统中各模块的数据偏好,尤其在小规模语言模型中效果显著优于传统方法。
完成下面两步后,将自动完成登录并继续当前操作。