本研究提出了一种名为AdaptCLIP的方法,用于在开放场景中识别新颖视觉领域的异常。该方法通过交替学习视觉和文本表示,结合上下文和对齐残差特征的比较学习,克服了现有方法的灵活性不足,并在多个异常检测基准上表现优异。
本研究针对多模态大型语言模型在视觉层选择分析不足的问题,提出逐层表示相似性的方法,发现浅层和中层在推理任务中表现显著优于深层,为视觉表示学习提供了基础。
该研究探讨了大型语言模型(LLM)在动态任务中的数值推理能力,提出了“代理交易竞技场”以模拟复杂经济系统。实验表明,LLM在处理文本股票数据时的数值推理能力较弱,但在图像数据中几何推理显著提升,表明视觉表示能增强数值推理能力。引入反思模块后,LLM的分析与解释能力进一步改善。
研究表明,生成扩散模型在去噪时能形成有意义的判别表示,但不如自监督学习。训练大型扩散模型的难点在于有效学习这些表示。研究提出通过引入高质量外部视觉表示来提升训练效率和图像质量。REPA技术通过对齐去噪网络与预训练视觉编码器的表示,显著提高了训练效率和生成质量。
本文探讨了通过可视化和自监督学习在视频中识别动作的深度时空表示。研究表明,交叉流融合能够有效学习时空特征,预训练视觉表示在控制任务中表现优异。提出的离线视觉表示学习方法在图像导航和目标导航任务上显著提升性能,并展示了物体感知表征学习在机器人任务中的应用潜力。
本文探讨了自监督学习中硬负样本和数据混合技术的有效性,提出了有条件负采样、负样本剪枝和合成图像学习等方法,以提高视觉表示质量。这些方法在图像分类和实例分割等任务中表现优异,显著提升了性能。
本文研究了上下文语言模型与视觉表示的关系,发现语言表示能够有效检索对象类别,文本上下文在此过程中起着重要作用。提出了多种视觉增强方法和工具,如ELEVATER和VaLM,以提升语言模型的视觉能力,并探讨了偏见问题及其解决策略,强调了多模态大型语言模型在视觉语言表示学习中的潜力。
本文介绍了自监督预训练框架,如CoMAE和MultiMAE,旨在通过交叉模态学习和遮蔽图像建模提升视觉表示能力。实验结果表明,这些方法在小规模无标签数据集上表现优异,适用于图像分类和目标检测等多种视觉任务。
本文探讨了一种基于个性化文本嵌入的文本到图像生成方法,通过优化用户提供的概念图像和文本提示,实现高效的图像编辑与生成。研究表明,该方法能提高用户提示的质量与视觉输出的对齐,推动个性化视觉表示的发展,并在多个基准测试中表现优异。
本研究提出了一种分区多模态提示方法(PMPO),通过多个可学习提示增强视觉表示的上下文理解能力。结合手动设计模板和可学习提示,提高了方法的泛化能力,并在新类别概括等任务中验证了其有效性。此外,研究探讨了多级提示调优和并行提示解码方法,显著提升了机器阅读理解和生成速度。
本文介绍了一种基于Transformer的视频任务模型,通过自监督学习和时间轴考虑,提升了视频分类效果。该模型利用无监督的序列验证任务,学习视觉表示,敏感捕捉时间变化信息,适用于姿势估计和行动识别。实验结果表明,该模型在多个数据集上表现优异,有效解决了深度学习处理视频时忽略时间顺序的问题。
本研究探讨通过在多样化人类视频数据上预训练视觉表示,以提升机器人操作任务的学习效率。使用R3M表示,成功率提高20%以上,且在真实环境中仅需20个演示即可完成多项操作任务。研究还涉及强化学习和障碍物避让等技术,推动机器人操控能力的发展。
本研究提出了一种结合自监督语言建模与受监督机器翻译的预训练策略,显著提升了模型的上下文学习能力。通过视觉和语言的跨语言预训练方法,研究表明基于视觉的表示在多模式机器翻译中表现优越。此外,提出了两种跨语言学习模型,分别依赖于单语数据和平行数据,取得了先进的跨语言分类和翻译结果。
本文探讨了自监督学习中硬负样本和数据混合技术的有效性,提出了一种特征级的硬负样本混合策略,显著提升了视觉表示质量和细粒度任务的性能。研究表明,生成难负样本和优化对比学习可以提高分类准确率,并在多个基准测试中超越传统方法。
本文介绍了一种名为MIVC的通用多实例可视化组件,通过神经网络以排列不变的方式汇总视觉表示,弥补了图像输入与预训练语言模型之间的差距。MIVC被整合到视觉语言模型中,显著提高了视觉问答、分类和标题任务的模型性能,并在电子商务数据集上展示了该组件对下游任务的贡献。
本研究评估了物体装配任务中视觉表示的鲁棒性,并发现从头开始训练的视觉编码器在双臂操纵设置中表现更好。研究还提出了旋转表示和相关损失函数,以提高策略学习效果,并提出了一种用于评估视觉运动策略学习进展的新型任务场景,特别关注提高复杂装配任务的鲁棒性。
LC-MAE是一种自我监督学习框架,利用全局上下文理解视觉表示,减少输入的空间冗余。在ImageNet-1K上使用ViT-B实现了84.2%的top-1准确率,比基准模型提高了0.6%。在下游任务中,LC-MAE取得了显著的性能提升,并在多个鲁棒性评估指标上表现优异。
该论文提出了一个从多个视角捕捉的无标注视频演示中学习视觉表示的框架,应用对比学习来增强与任务相关的信息和抑制特征嵌入中的无关信息。该方法在模拟几种机器人任务中得到验证,结果表明与现有方法相比,该方法水平更高,训练轮数更少。
通过结构化文本知识,提出了一个系统且统一的框架(RmLR)来提高人物-物体交互检测。通过分析相互作用信息的损失并生成更全面的视觉表示,设计了更精细的句子-词级对齐和知识传递策略,有效解决多个交互和多个文本之间的匹配问题,提高了对交互的理解。实验结果表明该方法在公共基准测试上实现了最先进的性能,并进一步分析了各个组成部分对效果的影响,为其功效提供了洞察。
完成下面两步后,将自动完成登录并继续当前操作。