本研究提出了一种检索偏好优化(RPO)方法,旨在解决检索增强生成(RAG)中因检索上下文质量引发的知识冲突问题。RPO通过将检索相关性纳入奖励模型,提升生成过程的准确性,实验结果显示其在四个数据集上的准确率比RAG提高了4-10%。
完成下面两步后,将自动完成登录并继续当前操作。