本研究提出了一种名为AdaptCLIP的方法,用于在开放场景中识别新颖视觉领域的异常。该方法通过交替学习视觉和文本表示,结合上下文和对齐残差特征的比较学习,克服了现有方法的灵活性不足,并在多个异常检测基准上表现优异。
本研究针对多模态大型语言模型在视觉层选择分析不足的问题,提出逐层表示相似性的方法,发现浅层和中层在推理任务中表现显著优于深层,为视觉表示学习提供了基础。
该研究探讨了大型语言模型(LLM)在动态任务中的数值推理能力,提出了“代理交易竞技场”以模拟复杂经济系统。实验表明,LLM在处理文本股票数据时的数值推理能力较弱,但在图像数据中几何推理显著提升,表明视觉表示能增强数值推理能力。引入反思模块后,LLM的分析与解释能力进一步改善。
研究表明,生成扩散模型在去噪时能形成有意义的判别表示,但不如自监督学习。训练大型扩散模型的难点在于有效学习这些表示。研究提出通过引入高质量外部视觉表示来提升训练效率和图像质量。REPA技术通过对齐去噪网络与预训练视觉编码器的表示,显著提高了训练效率和生成质量。
本文探讨了通过可视化和自监督学习在视频中识别动作的深度时空表示。研究表明,交叉流融合能够有效学习时空特征,预训练视觉表示在控制任务中表现优异。提出的离线视觉表示学习方法在图像导航和目标导航任务上显著提升性能,并展示了物体感知表征学习在机器人任务中的应用潜力。
本文探讨了自监督学习中硬负样本和数据混合技术的有效性,提出了有条件负采样、负样本剪枝和合成图像学习等方法,以提高视觉表示质量。这些方法在图像分类和实例分割等任务中表现优异,显著提升了性能。
本文研究了上下文语言模型与视觉表示的关系,发现语言表示能够有效检索对象类别,文本上下文在此过程中起着重要作用。提出了多种视觉增强方法和工具,如ELEVATER和VaLM,以提升语言模型的视觉能力,并探讨了偏见问题及其解决策略,强调了多模态大型语言模型在视觉语言表示学习中的潜力。
本研究提出了名为KI2HOI的新型框架,用于改进零样本人物-物体交互检测。通过动词提取解码器和视觉语义的动词特征学习模块,生成更全面的视觉表示。实验证明该模型优于以前的方法。
本研究使用多样化人类视频数据进行训练,探讨了视觉表示对机器人操作任务的高效学习。通过预先训练Ego4D数据集的视觉表示,得到了名为R3M的静态感知模块。R3M在12个模拟机器人操作任务中成功率提高了20%以上。此外,R3M使得Franka Emika Panda手臂在真实环境中仅使用20个演示就能学习一系列操作任务。
本文介绍了视觉概念连接图(VCC)的新方法,用于理解深度网络模型中的视觉表示。VCC以无监督方式发现人类可解释的概念及其在不同层之间的连接,并揭示了网络结构的细粒度概念和连接权重。实验证明VCC在图像分类和故障模式调试方面有效。
我们提出了一种自我监督学习框架,称为LC-MAE,能够利用全局上下文理解视觉表示,减少输入的空间冗余。LC-MAE在ImageNet-1K上使用ViT-B实现了84.2%的top-1准确率,比基准模型提高了0.6%。在语义分割和细粒度视觉分类任务中表现出色,并在鲁棒性评估指标上取得了优异结果。
本文介绍了一种通过生成式预训练学习得到的视觉表示,用于提高多种任务下视觉增强学习系统性能和效率的框架。通过预训练无动作潜在视频预测模型,并引入动作条件潜在预测模型和基于视频的内在激励奖励机制,有效提升了数据利用率和最终权能的完成度。
本文介绍了一种名为MIVC的通用多实例可视化组件,通过神经网络以排列不变的方式汇总视觉表示,弥补了图像输入与预训练语言模型之间的差距。MIVC被整合到视觉语言模型中,显著提高了视觉问答、分类和标题任务的模型性能,并在电子商务数据集上展示了该组件对下游任务的贡献。
本研究评估了物体装配任务中视觉表示的鲁棒性,并发现从头开始训练的视觉编码器在双臂操纵设置中表现更好。研究还提出了旋转表示和相关损失函数,以提高策略学习效果,并提出了一种用于评估视觉运动策略学习进展的新型任务场景,特别关注提高复杂装配任务的鲁棒性。
LC-MAE是一种自我监督学习框架,利用全局上下文理解视觉表示,减少输入的空间冗余。在ImageNet-1K上使用ViT-B实现了84.2%的top-1准确率,比基准模型提高了0.6%。在下游任务中,LC-MAE取得了显著的性能提升,并在多个鲁棒性评估指标上表现优异。
该论文提出了一个从多个视角捕捉的无标注视频演示中学习视觉表示的框架,应用对比学习来增强与任务相关的信息和抑制特征嵌入中的无关信息。该方法在模拟几种机器人任务中得到验证,结果表明与现有方法相比,该方法水平更高,训练轮数更少。
通过结构化文本知识,提出了一个系统且统一的框架(RmLR)来提高人物-物体交互检测。通过分析相互作用信息的损失并生成更全面的视觉表示,设计了更精细的句子-词级对齐和知识传递策略,有效解决多个交互和多个文本之间的匹配问题,提高了对交互的理解。实验结果表明该方法在公共基准测试上实现了最先进的性能,并进一步分析了各个组成部分对效果的影响,为其功效提供了洞察。
完成下面两步后,将自动完成登录并继续当前操作。