💡
原文中文,约4000字,阅读约需10分钟。
📝
内容提要
AIxiv专栏促进学术交流,报道超过2000篇文章。淘天集团未来生活实验室专注于大模型和多模态AI技术,提出令牌级偏好对齐方法(TPO),有效缓解视觉大模型的幻觉现象,提升模型与视觉信息的关联性。
🎯
关键要点
- AIxiv专栏促进学术交流,报道超过2000篇文章。
- 淘天集团未来生活实验室专注于大模型和多模态AI技术。
- 提出令牌级偏好对齐方法(TPO),有效缓解视觉大模型的幻觉现象。
- TPO方法能够自我校准视觉锚定奖励信号,优化模型与视觉信息的关联性。
- TPO是多模态领域首个无需人工细粒度标注的令牌级偏好优化方法。
- 现有DPO方法在缓解幻觉问题上仍面临高效token-level奖励信号缺乏的问题。
- TPO自动识别偏好数据中的视觉锚定token,无需人工标注。
- TPO通过加噪处理衡量每个token的视觉锚定程度,自动更新奖励信号。
- 实验结果显示,TPO在幻觉缓解方面显著优于现有方法。
- TPO训练后,模型生成的答案更依赖于视觉信息而非语言模型先验知识。
- 未来生活实验室团队将继续研究强化学习,解决多模态幻觉问题。
➡️