小红花·文摘

LLaVA-OneVision是一种大型多模型家族，能在单图像、多图像和视频场景中推动开放的大型多模型性能边界的模型。它允许在不同的模态/场景之间进行强大的迁移学习，展示了强大的视频理解和跨场景能力。