小红花·文摘 - 小红花技术领袖俱乐部

本文提出了一种新的评估框架，针对检索增强语言模型在用户需求差异方面的不足。实验结果表明，限制记忆使用可以提高模型在逆境中的鲁棒性，但在理想条件下会降低性能，强调了以用户为中心的评估的重要性。

How Do Retrieval-Augmented Language Models Adapt to Diverse User Needs?

BriefGPT - AI 论文速递 ·

本研究提出RAG-RewardBench基准，旨在解决检索增强语言模型与人类偏好对齐不足的问题。通过评估45个奖励模型，揭示了现有模型在偏好一致性方面的局限性，强调了进行偏好对齐训练的必要性。

RAG-RewardBench: Evaluating Reward Models in Retrieval-Augmented Generation for Preference Consistency

BriefGPT - AI 论文速递 ·