小红花·文摘

本研究提出了一种可微分数据奖励（DDR）方法，解决了检索增强生成（RAG）方法中忽视数据偏好的问题。DDR能更好地对齐RAG系统中各模块的数据偏好，尤其在小规模语言模型中效果显著优于传统方法。