细粒度对齐无需仔细标注了!淘天提出视觉锚定奖励,自我校准实现多模态对齐

细粒度对齐无需仔细标注了!淘天提出视觉锚定奖励,自我校准实现多模态对齐

💡 原文中文,约4000字,阅读约需10分钟。
📝

内容提要

AIxiv专栏促进学术交流,报道超过2000篇文章。淘天集团未来生活实验室专注于大模型和多模态AI技术,提出令牌级偏好对齐方法(TPO),有效缓解视觉大模型的幻觉现象,提升模型与视觉信息的关联性。

🎯

关键要点

  • AIxiv专栏促进学术交流,报道超过2000篇文章。
  • 淘天集团未来生活实验室专注于大模型和多模态AI技术。
  • 提出令牌级偏好对齐方法(TPO),有效缓解视觉大模型的幻觉现象。
  • TPO方法能够自我校准视觉锚定奖励信号,优化模型与视觉信息的关联性。
  • TPO是多模态领域首个无需人工细粒度标注的令牌级偏好优化方法。
  • 现有DPO方法在缓解幻觉问题上仍面临高效token-level奖励信号缺乏的问题。
  • TPO自动识别偏好数据中的视觉锚定token,无需人工标注。
  • TPO通过加噪处理衡量每个token的视觉锚定程度,自动更新奖励信号。
  • 实验结果显示,TPO在幻觉缓解方面显著优于现有方法。
  • TPO训练后,模型生成的答案更依赖于视觉信息而非语言模型先验知识。
  • 未来生活实验室团队将继续研究强化学习,解决多模态幻觉问题。
➡️

继续阅读