MyVLM: 为用户特定查询个性化 VLM

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文研究了增加外部概念头和中间特征空间中的概念嵌入来识别和整合用户提供的概念,并应用于个性化图像字幕生成和个性化视觉问答。结果表明模型可以推广到学习未见图像的概念,并在无关输入上保持模型行为。

🎯

关键要点

  • 研究增加外部概念头和中间特征空间中的概念嵌入。
  • 目标是识别和整合用户提供的概念。
  • 应用于个性化图像字幕生成和个性化视觉问答。
  • 模型能够推广到学习未见图像的概念。
  • 在无关输入上保持模型行为。
➡️

继续阅读