小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
结合多模态提示的统一开放世界分割

COSINE是一种开放世界图像分割模型,结合了开放词汇分割和上下文分割,支持多种输入模式(如图像和文本)。该模型利用基础模型的表示能力,能够准确分割特定概念,提升开放世界感知能力。实验结果表明,该方法在多种分割任务中表现有效。

结合多模态提示的统一开放世界分割

Apple Machine Learning Research
Apple Machine Learning Research · 2025-12-16T00:00:00Z

本研究提出了一种新方法LED,旨在解决开放词汇物体检测中的偏见和过拟合问题。实验结果表明,该方法利用大型语言模型的隐藏状态,在复杂查询中的性能显著提升。

LED:无须人工策划数据生成的LLM增强开放词汇物体检测

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-18T00:00:00Z

本研究提出了一种新方法,通过概念对齐解决开放词汇对象检测中的未见类别测试问题,显著提升了COCO和LVIS基准的检测性能与计算效率。

Sampling View Package for Open-Vocabulary Object Detection

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-24T00:00:00Z

本文介绍了多种开放词汇语义分割模型的研究进展,包括ViL-Seg、Fusioner和OVFormer等。这些模型通过利用图像和文本数据,在无需密集标注的情况下实现了优异的分割效果,推动了计算机视觉的发展。研究还探讨了不同方法的优缺点及未来研究方向。

面向开放词汇的视频语义分割

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-12T00:00:00Z

该研究提出了一种新颖的单阶段共享高效框架EOV-Seg,旨在提升全景分割的效率。通过引入词汇感知选择模块和双向动态嵌入专家,EOV-Seg在开放词汇环境下显著提高了处理速度和性能,其推理速度比现有方法快4到21倍。

高效开放词汇全景分割:EOV-Seg

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-11T00:00:00Z

本研究提出了一种适应类别的跨模态语义提炼与转移框架(C$^2$SRT),旨在解决开放词汇多标签识别中类别间语义关联捕捉不足的问题。实验结果表明,该方法在基准测试中显著优于现有算法。

Category-Adaptive Cross-Modal Semantic Refinement and Transfer for Open-Vocabulary Multi-Label Recognition

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-09T00:00:00Z

本研究提出了一种新框架,使开放词汇物体检测模型能够在开放世界中识别和学习新物体。该方法通过开放世界嵌入学习和多尺度对比锚学习,在物体检测和自动驾驶基准测试中表现优异,具有重要应用潜力。

From Open Vocabulary to Open World: Teaching Vision Language Models to Detect Novel Objects

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-27T00:00:00Z
ECCV 2024 - 基于文本到图像扩散模型的开放词汇3D语义分割

该演讲介绍了Diff2Scene,一种利用冻结的文本-图像生成模型进行开放词汇3D语义理解的方法。它无需标记的3D数据,能够有效识别3D场景中的物体、外观和位置。

ECCV 2024 - 基于文本到图像扩散模型的开放词汇3D语义分割

DEV Community
DEV Community · 2024-11-22T22:47:57Z

本研究提出了CLIPer框架,改进了CLIP在像素级开放词汇语义分割中的应用,无需额外训练。通过早层融合和细粒度补偿模块,显著提升了分割效果,实验证明其在多个数据集上表现优异。

CLIPer: A Hierarchical Improvement of CLIP Spatial Representation for Open-Vocabulary Semantic Segmentation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-21T00:00:00Z

本研究提出开放词汇音视频事件定位(OV-AVEL)任务,解决了音视频事件定位中对未知事件类别处理不足的问题。通过引入OV-AVEBench数据集和基准方法,显著提升了开放集环境下的音视频事件识别能力。

Towards Open-Vocabulary Audio-Visual Event Localization

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-18T00:00:00Z

论文提出了一种名为AnytimeCL的开放词汇图像分类持续学习方法,采用动态加权机制结合原始模型与微调模型的预测,支持在线训练和类别平衡。该方法通过特征压缩降低存储需求,提高训练效率,同时保持准确性。

AnytimeCL:难度加大,支持任意持续学习场景的新方案 | ECCV'24 - 晓飞的算法工程笔记

晓飞的算法工程笔记
晓飞的算法工程笔记 · 2024-11-07T01:37:00Z

本研究提出了一种全映射的方法,解决了文本到运动生成中的开放词汇问题,通过引入原子运动和文本分解,显著提升了运动生成的泛化能力。

文本分解后的小运动空间散射用于开放词汇运动生成

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-06T00:00:00Z

本研究提出了一种开放词汇航空物体检测(OVAD)的新定义,旨在解决现有算法只能检测预定义类别的问题。通过CastDet框架,结合多种策略和教师模型,显著提升了新类别物体的检测能力和精度。

Exploiting Unlabeled Data with Multiple Expert Teachers for Open Vocabulary Aerial Object Detection and Its Orientation Adaptation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-04T00:00:00Z

现有方法使用视觉-语言模型如CLIP来增强开放词汇目标检测,但存在概念表示不足和过拟合问题。为此,提出LaMI策略,通过语言模型指令改善概念表示,避免过拟合。LaMI-DETR结合GPT和T5构建视觉概念,提升检测性能。实验显示,该方法在不依赖外部资源的情况下显著提升了泛化能力。

LaMI-DETR:基于GPT丰富优化的开放词汇目标检测 | ECCV'24 - 晓飞的算法工程笔记

晓飞的算法工程笔记
晓飞的算法工程笔记 · 2024-10-22T05:46:00Z

本文介绍了多种开放词汇语义分割方法,如ViL-Seg模型和Fusioner,强调利用图像和文本数据进行零样本学习。这些方法在多个基准数据集上表现优异,展现了广泛的应用潜力,推动了计算机视觉领域的发展。

开放词汇RGB-T零样本语义分割在开放世界环境中的应用

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-09T00:00:00Z

本文介绍了多种基于Transformer的语义分割方法,如SETR、Segmenter、CyCTR、TRFS和SeMask等。这些方法通过不同的解码器和增强模块,提升了在多个数据集上的分割性能,尤其在Few-Shot Learning和开放词汇任务中表现突出。最新的SED模型通过分层结构和类别早期拒绝机制,实现了高效的像素级分割。

MSDNet:基于变换器引导原型的少样本语义分割多尺度解码器

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-17T00:00:00Z

本文探讨了多种基于扩散模型的语义分割方法,如PNS-Net、DiffSegmenter和VD-IT。这些方法在视频物体分割和开放词汇语义分割任务中表现优异,能够有效利用少量标注数据,提升分割性能,并在多个数据集上取得了先进的结果。

Diff-VPS:通过多任务扩散网络进行视频息肉分割与对抗时间推理

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-11T00:00:00Z

本研究提出了一种零样本目标位姿估计方法,利用评分函数实现对未见物体的泛化,实验结果显示该方法在复杂场景中优于传统方法。同时,研究探讨了开放词汇的物体姿态估计,结合视觉语言模型和大型语言模型,提升了对新对象的理解和导航能力。

从语言到姿态:利用视觉语言模型增强新物体姿态估计

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-09T00:00:00Z

本文介绍了多种基于图像文本交互的语义分割模型,如ViL-Seg和Fusioner。这些模型利用自然图像和文本数据进行零样本学习,显著提升了模型的泛化能力和分割效果,并在多个基准数据集上表现优异,推动了开放词汇语义分割的发展。

MROVSeg:突破视觉语言模型在开放词汇语义分割中的分辨率诅咒

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-27T00:00:00Z

本文介绍了DetCLIPv2和T-Rex2等多种改进的物体检测模型,利用大规模图像-文本对进行开放词汇目标检测,显著提升检测性能。研究探索了多模态分类器和动态词汇生成,提出新的视觉提示方法和OSR-ViT框架,展示了在低数据场景中的优越表现,推动开放世界目标检测的发展。

更多的图像意味着更多:用于开放集物体检测的视觉交集网络

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-26T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码