本研究评估了自监督学习技术在计算机视觉任务中的有效性,并提出了一种零样本分割评估协议。通过设计名为MMC的简单自监督方法,实现了零样本语义分割的顶级效果。
Blink是一个新的多模式语言模型(LLMs)基准,通过对14个计算机视觉任务进行改组,生成了3807个多项选择题。结果显示,现有的多模式LLMs在核心视觉感知能力上仍有挑战,最佳模型的准确率仅为51.26%和45.72%。专家级计算机视觉模型在解决这些问题方面表现更好。Blink将激发社区努力,帮助多模式LLMs赶上人类水平的视觉感知。
深度学习算法在计算机视觉任务中取得进展,但其可解释性受到关注。可解释人工智能(XAI)旨在揭示人工智能模型的决策过程。该研究提出了一个XAI基准,包括不同主题的数据集和解释注释。还综合评述了10种视觉解释评估方法。希望该基准推动视觉解释模型的进步。
该研究介绍了一种使用静止事件相机将事件转换为密集强度图像的方法,并通过时间映射神经网络将时序矩阵转换为强度帧。实验证明该方法在动态范围、细节和灰度分辨率方面表现出卓越的性能,并比其他方法在计算机视觉任务上表现更好。
该研究提出了一个统一的MoE公式,揭示了路由器在视觉MoE模型中的重要作用。
研究人员提出了一个全面的数据集ChimpACT,用于量化黑猩猩的纵向行为和社会关系。该数据集包含163个视频,涵盖了2015年到2018年德国莱比锡动物园的20多只黑猩猩群体。实验结果表明,ChimpACT为解决黑猩猩群体的计算机视觉任务提供了机会,加深了对非人类灵长类动物的理解。
本研究提出了一项名为OpenVIS的新计算机视觉任务,旨在根据文本描述分割、检测和跟踪视频中的任意对象。通过开放词汇的设计,OpenVIS可以识别所需类别的对象,不受训练数据集的限制。研究提出了一个由两个阶段组成的流程,利用基于查询的蒙版提议网络生成潜在对象的蒙版,并通过预训练的VLM预测其类别,然后通过提议后处理方法更好地适应预训练的VLMs,以避免扭曲和不自然的提议输入。
本文提出全能视觉多任务适配器(VMT-Adapter)用于计算机视觉任务,通过共享任务知识增强跨任务交互,保留任务特定知识。同时提出VMT-Adapter-Lite以减少可训练参数。实验证明VMT-Adapter(-Lite)相对改进3.96%(1.34%),仅利用预训练模型约1%(0.36%)的可训练参数。
本文提出了一种名为混合动态变分自编码器(MixDVAE)的潜在变量生成模型,用于建模多个移动源组成的系统的动态。通过在单源数据集上预训练DVAE模型来捕捉源的动态,然后将多个预训练DVAE模型的实例集成到一个多源混合模型中,带有离散观测-源分配潜变量。实验结果表明,该方法在计算机视觉任务和音频处理任务上表现良好,并超过了几种基准方法。
该文章提出了一种学习判别特征的框架,以改进人群计数模型的定位能力和区分前景与背景的能力。该框架包括掩蔽特征预测模块和像素级对比学习模块,对计算机视觉任务有潜在的性能提升效果。
InstructDiffusion是一个用于将计算机视觉任务与人类指令对齐的通用框架。通过扩散过程训练模型以预测像素,它能够处理各种视觉任务,并在新数据集上表现优于先前的方法。这将推进计算机视觉领域的人工智能通用建模接口的发展。
本文介绍了一种保护隐私的自动驾驶方法,通过将图像和标签转换为鱼眼样式的数据,优化了深度学习模型的计算机视觉任务。实验结果表明,该方法在自动驾驶数据上训练时表现优于基线方法。
该研究介绍了Convolutional Dense Attention-guided Network (CDAN)的工作原理和应用,通过图像增强技术改善了低光照条件下的图片质量,并在计算机视觉任务中展示了潜力,特别是在低光照条件下的目标检测和识别方面。
本研究评估了计算机视觉任务中彻底自监督学习技术的有效性,并提出了一种基于标注块的零样本分割评估协议。通过MMC方法,利用蒙版图像建模、自蒸馏和全局对比度提升SSP ViTs的区分能力,实现了零样本语义分割的顶级效果。
本文介绍了一种名为DR-Net的新型深度网络架构,用于图像去雾。该网络由三个子网络组成,分别是传输预测网络、去雾网络和优化网络。DR-Net在数据驱动模型、端到端系统和鲁棒性方面表现出色。实验证明,DR-Net在定量和定性指标上都优于最新方法。此外,DR-Net在计算机视觉任务中也具有潜在用途。
完成下面两步后,将自动完成登录并继续当前操作。