小红花·文摘

结合多模态提示的统一开放世界分割

Apple Machine Learning Research ·

本研究提出了一种新方法LED，旨在解决开放词汇物体检测中的偏见和过拟合问题。实验结果表明，该方法利用大型语言模型的隐藏状态，在复杂查询中的性能显著提升。

LED：无须人工策划数据生成的LLM增强开放词汇物体检测

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法，通过概念对齐解决开放词汇对象检测中的未见类别测试问题，显著提升了COCO和LVIS基准的检测性能与计算效率。

Sampling View Package for Open-Vocabulary Object Detection

BriefGPT - AI 论文速递 ·

本文介绍了多种开放词汇语义分割模型的研究进展，包括ViL-Seg、Fusioner和OVFormer等。这些模型通过利用图像和文本数据，在无需密集标注的情况下实现了优异的分割效果，推动了计算机视觉的发展。研究还探讨了不同方法的优缺点及未来研究方向。

面向开放词汇的视频语义分割

BriefGPT - AI 论文速递 ·

该研究提出了一种新颖的单阶段共享高效框架EOV-Seg，旨在提升全景分割的效率。通过引入词汇感知选择模块和双向动态嵌入专家，EOV-Seg在开放词汇环境下显著提高了处理速度和性能，其推理速度比现有方法快4到21倍。

高效开放词汇全景分割：EOV-Seg

BriefGPT - AI 论文速递 ·

本研究提出了一种适应类别的跨模态语义提炼与转移框架（C$^2$SRT），旨在解决开放词汇多标签识别中类别间语义关联捕捉不足的问题。实验结果表明，该方法在基准测试中显著优于现有算法。

Category-Adaptive Cross-Modal Semantic Refinement and Transfer for Open-Vocabulary Multi-Label Recognition

BriefGPT - AI 论文速递 ·

本研究提出了一种新框架，使开放词汇物体检测模型能够在开放世界中识别和学习新物体。该方法通过开放世界嵌入学习和多尺度对比锚学习，在物体检测和自动驾驶基准测试中表现优异，具有重要应用潜力。

From Open Vocabulary to Open World: Teaching Vision Language Models to Detect Novel Objects

BriefGPT - AI 论文速递 ·

ECCV 2024 - 基于文本到图像扩散模型的开放词汇3D语义分割

DEV Community ·

本研究提出了CLIPer框架，改进了CLIP在像素级开放词汇语义分割中的应用，无需额外训练。通过早层融合和细粒度补偿模块，显著提升了分割效果，实验证明其在多个数据集上表现优异。

CLIPer: A Hierarchical Improvement of CLIP Spatial Representation for Open-Vocabulary Semantic Segmentation

BriefGPT - AI 论文速递 ·

本研究提出开放词汇音视频事件定位（OV-AVEL）任务，解决了音视频事件定位中对未知事件类别处理不足的问题。通过引入OV-AVEBench数据集和基准方法，显著提升了开放集环境下的音视频事件识别能力。

Towards Open-Vocabulary Audio-Visual Event Localization

BriefGPT - AI 论文速递 ·

论文提出了一种名为AnytimeCL的开放词汇图像分类持续学习方法，采用动态加权机制结合原始模型与微调模型的预测，支持在线训练和类别平衡。该方法通过特征压缩降低存储需求，提高训练效率，同时保持准确性。

AnytimeCL：难度加大，支持任意持续学习场景的新方案 | ECCV'24 - 晓飞的算法工程笔记

晓飞的算法工程笔记 ·

本研究提出了一种全映射的方法，解决了文本到运动生成中的开放词汇问题，通过引入原子运动和文本分解，显著提升了运动生成的泛化能力。

文本分解后的小运动空间散射用于开放词汇运动生成

BriefGPT - AI 论文速递 ·

本研究提出了开放词汇航空物体检测（OVAD）的新定义，解决了现有算法只能检测预定义类别的问题。CastDet框架通过结合多种策略和教师模型，提高了新物体提议的质量和分类能力。

利用多个专家教师的无标签数据进行开放词汇航空物体检测及其方向适应

BriefGPT - AI 论文速递 ·

现有方法使用视觉-语言模型如CLIP来增强开放词汇目标检测，但存在概念表示不足和过拟合问题。为此，提出LaMI策略，通过语言模型指令改善概念表示，避免过拟合。LaMI-DETR结合GPT和T5构建视觉概念，提升检测性能。实验显示，该方法在不依赖外部资源的情况下显著提升了泛化能力。

LaMI-DETR：基于GPT丰富优化的开放词汇目标检测 | ECCV'24 - 晓飞的算法工程笔记

晓飞的算法工程笔记 ·

深度学习推动了计算机视觉中的目标检测和分割，但由于标注成本高，数据集类别有限，难以扩展到开放词汇。近年来，开放词汇检测和分割受到关注。本文综述了这些领域的发展，提出了分类法，涵盖视觉-语义映射和视觉特征合成等方法，讨论了每种方法的原则、挑战和优缺点，并进行了基准测试，最后提出未来研究方向。

开放词汇RGB-T零样本语义分割在开放世界环境中的应用

BriefGPT - AI 论文速递 ·

本研究提出了一种开放词汇的3D跟踪方法，解决了传统3D多目标跟踪系统受限于预定义对象类别的问题。该方法提高了在动态环境中对未知对象的适应能力，对自主驾驶系统应用具有重要意义。

Open3DTrack：面向开放词汇的3D多目标跟踪

BriefGPT - AI 论文速递 ·

计算机视觉中的目标检测和分割取得了巨大进展，但现有数据集中的标注类别较小且预定义，无法推广到开放词汇之外。近年来，关注集中在开放词汇检测和分割上。本调研提供了对过去和最新开放词汇检测和分割发展的全面审查，包括不同方法学的分类和讨论。提供了一些有前途的方向，以激发未来的研究。

开放词汇遥感图像语义分割

BriefGPT - AI 论文速递 ·

最近的研究发现，利用预训练的文本-图像判别模型（如CLIP）可以解决开放词汇语义分割的挑战。研究人员提出了一种名为DiffSegmenter的无需训练的新方法，通过扩散模型生成注释数据或提取特征来促进语义分割。DiffSegmenter在开放词汇语义分割方面取得了令人印象深刻的结果。

Diff-VPS：通过多任务扩散网络进行视频息肉分割与对抗时间推理

BriefGPT - AI 论文速递 ·

iSeg：一种基于迭代优化的无训练分割框架

BriefGPT - AI 论文速递 ·

最近的研究发现，利用预训练的文本-图像判别模型可以解决开放词汇语义分割的挑战。然而，研究人员提出了一种名为DiffSegmenter的无需训练的新方法，通过扩散模型生成注释数据或提取特征来促进语义分割。实验证明，DiffSegmenter在开放词汇语义分割方面取得了令人印象深刻的结果。

基于文本到图像扩散模型的开放词汇 3D 语义分割

BriefGPT - AI 论文速递 ·