CAFe: Unifying Representation and Generation through Contrastive Autoregressive Fine-tuning
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出CAFe框架,首次在大型视觉语言模型中同时提升表征学习与生成能力,推动多模态检索与生成基准的发展。
🎯
关键要点
-
本研究提出CAFe框架,首次在大型视觉语言模型中同时提升表征学习与生成能力。
-
CAFe框架结合对比目标与自回归语言建模,解决了LVLMs在高保真表征学习与生成能力之间的权衡问题。
-
该框架显著推动了多模态检索和生成基准的性能。
-
研究为未来多模态模型的发展奠定了基础。
➡️