本文介绍了一种视觉自监督学习方法——文本条件JEPA(TC-JEPA),该方法通过图像标题减少特征预测的不确定性。TC-JEPA利用细粒度文本调节器,使图像特征更具语义意义,从而提升下游任务的表现和训练稳定性。该方法在视觉理解和推理任务中优于对比学习,展示了新的基于特征预测的视觉-语言预训练范式。
本研究提出了一种新颖的动作时间连贯性学习方法(AcTOL),旨在解决视觉-语言预训练中因过度关注未来帧导致的关联错误。该方法通过语义对比学习视频帧的自然顺序,显著提升了下游操作任务的性能,并增强了对不同语言风格指令的鲁棒性,推动了具身智能体的发展。
本文介绍了多层语义对齐的视觉语言预训练方法(MVPTR),强调多模态学习的协同作用。提出了X$^2$-VLM模型,优化了图像文本和视频文本任务的性能,并提出了MMStar基准以评估视觉语言模型的多模态能力,解决了数据泄漏问题。通过SIMA框架和X-VILA模型,提升了视觉与语言的对齐性和跨模态理解能力。
本文探讨了多语言图像标题生成和检索的方法,利用CLIP等预训练模型在多样化数据集上取得了优越表现。研究表明,机器翻译和对比学习能有效提升多语言图像检索性能,尤其在低资源语言上表现突出。RankCLIP通过自我监督学习增强了图像与文本的对齐能力,推动了视觉语言预训练的发展。
该论文提出了一种基于回归模型的方法,通过提取文本查询中的语义短语,反映查询与视频视觉特征的双模态交互,显著提高了时态动作定位的预测效果。研究表明,该方法在多个数据集上优于现有技术,并提出了新的边界回归范式和视觉-语言预训练模型,验证了其有效性。
本文探讨了多模态对比模型中的模态差距及其对比损失的影响,提出了改进的对比损失函数和新方法(如SoftCLIP、RankCLIP、Gentle-CLIP等),以提升模态间对齐和下游任务性能,尤其在零样本分类中表现突出。这些方法通过优化嵌入空间和引入自监督学习,推动了视觉语言预训练的发展。
本文综述了多模式大语言模型在视觉-语言预训练中的进展,提出了高质量图像语言调整数据的特点和构建流程。研究表明,通过优化数据集和指令生成,可以有效提升模型性能,并介绍了新模型LLaVA在多个基准测试中的优异表现。
本文介绍了SUPMER、MetaPrompter和MetaPrompting等基于元学习和提示调整的模型,旨在提升few-shot学习和零样本分类的性能。这些方法在多个任务上显著提高了模型的适应性和准确性,尤其在视觉语言预训练模型的微调中表现优异。
本文综述了视觉-语言预训练(VLP)的最新进展,提出了多种模型和方法,包括统一的Transformer框架和无监督学习策略,旨在提升图像与文本的理解与生成能力。这些模型在多个下游任务中表现优异,推动了多模态学习的发展。
利用多模态信息的视觉语言预训练(VLP)在自然领域的视觉识别和胸部 X 射线(CXR)的医学影像诊断方面取得了重大成功。UniChest是一个征服与分割的预训练框架,旨在充分利用多个源 CXRs 的协作优势,同时减少源异质性的负面影响。
完成下面两步后,将自动完成登录并继续当前操作。