COSINE是一种开放世界图像分割模型,结合了开放词汇分割和上下文分割,支持多种输入模式(如图像和文本)。该模型利用基础模型的表示能力,能够准确分割特定概念,提升开放世界感知能力。实验结果表明,该方法在多种分割任务中表现有效。
本研究提出了一种新方法LED,旨在解决开放词汇物体检测中的偏见和过拟合问题。实验结果表明,该方法利用大型语言模型的隐藏状态,在复杂查询中的性能显著提升。
本研究提出了一种新方法,通过概念对齐解决开放词汇对象检测中的未见类别测试问题,显著提升了COCO和LVIS基准的检测性能与计算效率。
本文介绍了多种开放词汇语义分割模型的研究进展,包括ViL-Seg、Fusioner和OVFormer等。这些模型通过利用图像和文本数据,在无需密集标注的情况下实现了优异的分割效果,推动了计算机视觉的发展。研究还探讨了不同方法的优缺点及未来研究方向。
该研究提出了一种新颖的单阶段共享高效框架EOV-Seg,旨在提升全景分割的效率。通过引入词汇感知选择模块和双向动态嵌入专家,EOV-Seg在开放词汇环境下显著提高了处理速度和性能,其推理速度比现有方法快4到21倍。
本研究提出了一种适应类别的跨模态语义提炼与转移框架(C$^2$SRT),旨在解决开放词汇多标签识别中类别间语义关联捕捉不足的问题。实验结果表明,该方法在基准测试中显著优于现有算法。
本研究提出了一种新框架,使开放词汇物体检测模型能够在开放世界中识别和学习新物体。该方法通过开放世界嵌入学习和多尺度对比锚学习,在物体检测和自动驾驶基准测试中表现优异,具有重要应用潜力。
该演讲介绍了Diff2Scene,一种利用冻结的文本-图像生成模型进行开放词汇3D语义理解的方法。它无需标记的3D数据,能够有效识别3D场景中的物体、外观和位置。
本研究提出了CLIPer框架,改进了CLIP在像素级开放词汇语义分割中的应用,无需额外训练。通过早层融合和细粒度补偿模块,显著提升了分割效果,实验证明其在多个数据集上表现优异。
本研究提出开放词汇音视频事件定位(OV-AVEL)任务,解决了音视频事件定位中对未知事件类别处理不足的问题。通过引入OV-AVEBench数据集和基准方法,显著提升了开放集环境下的音视频事件识别能力。
论文提出了一种名为AnytimeCL的开放词汇图像分类持续学习方法,采用动态加权机制结合原始模型与微调模型的预测,支持在线训练和类别平衡。该方法通过特征压缩降低存储需求,提高训练效率,同时保持准确性。
本研究提出了一种全映射的方法,解决了文本到运动生成中的开放词汇问题,通过引入原子运动和文本分解,显著提升了运动生成的泛化能力。
本研究提出了开放词汇航空物体检测(OVAD)的新定义,解决了现有算法只能检测预定义类别的问题。CastDet框架通过结合多种策略和教师模型,提高了新物体提议的质量和分类能力。
现有方法使用视觉-语言模型如CLIP来增强开放词汇目标检测,但存在概念表示不足和过拟合问题。为此,提出LaMI策略,通过语言模型指令改善概念表示,避免过拟合。LaMI-DETR结合GPT和T5构建视觉概念,提升检测性能。实验显示,该方法在不依赖外部资源的情况下显著提升了泛化能力。
深度学习推动了计算机视觉中的目标检测和分割,但由于标注成本高,数据集类别有限,难以扩展到开放词汇。近年来,开放词汇检测和分割受到关注。本文综述了这些领域的发展,提出了分类法,涵盖视觉-语义映射和视觉特征合成等方法,讨论了每种方法的原则、挑战和优缺点,并进行了基准测试,最后提出未来研究方向。
本研究提出了一种开放词汇的3D跟踪方法,解决了传统3D多目标跟踪系统受限于预定义对象类别的问题。该方法提高了在动态环境中对未知对象的适应能力,对自主驾驶系统应用具有重要意义。
计算机视觉中的目标检测和分割取得了巨大进展,但现有数据集中的标注类别较小且预定义,无法推广到开放词汇之外。近年来,关注集中在开放词汇检测和分割上。本调研提供了对过去和最新开放词汇检测和分割发展的全面审查,包括不同方法学的分类和讨论。提供了一些有前途的方向,以激发未来的研究。
最近的研究发现,利用预训练的文本-图像判别模型(如CLIP)可以解决开放词汇语义分割的挑战。研究人员提出了一种名为DiffSegmenter的无需训练的新方法,通过扩散模型生成注释数据或提取特征来促进语义分割。DiffSegmenter在开放词汇语义分割方面取得了令人印象深刻的结果。
最近的研究发现,利用预训练的文本-图像判别模型可以解决开放词汇语义分割的挑战。然而,研究人员提出了一种名为DiffSegmenter的无需训练的新方法,通过扩散模型生成注释数据或提取特征来促进语义分割。实验证明,DiffSegmenter在开放词汇语义分割方面取得了令人印象深刻的结果。
完成下面两步后,将自动完成登录并继续当前操作。