小红花·文摘

本研究提出了一种新的后训练偏好对齐方法，旨在缩小多智能体运动生成模型与人类偏好之间的差距。通过利用先前训练示范中的隐式反馈，显著提高了生成行为的真实性和一致性，无需额外的人类偏好注释。

BriefGPT - AI 论文速递 ·

本研究探讨隐式反馈中的噪声和偏差问题，提出了一种基于时间信息的去噪方法，并设计了DeBaTeR-A和DeBaTeR-L策略，显著提升了推荐系统的性能和鲁棒性。

BriefGPT - AI 论文速递 ·