LLaVA-OneVision:简易视觉任务迁移
原文中文,约300字,阅读约需1分钟。发表于: 。LLaVA-OneVision 是一种大型多模型家族,通过对数据、模型和视觉表示的洞察进行整合开发,其实验结果证明了 LLaVA-OneVision 是第一个能在单图像、多图像和视频场景中同时推动开放的大型多模型性能边界的模型。尤其重要的是,LLaVA-OneVision 的设计允许在不同的模态 /...
LLaVA-OneVision是一种大型多模型家族,能在单图像、多图像和视频场景中推动开放的大型多模型性能边界的模型。它允许在不同的模态/场景之间进行强大的迁移学习,展示了强大的视频理解和跨场景能力。