本文讨论了自监督视觉模型DINO及其在目标检测中的应用,重点介绍了Grounding DINO和DINO-X。Grounding DINO通过语言信息将闭集检测器扩展到开放集场景,采用双编码器-单解码器架构,结合图像和文本特征进行对象检测,创新设计了特征提取、增强和查询选择等方面,以提升检测性能。
本研究提出了一种新颖的变接收场DETR(VRF-DETR)方法,旨在解决无人机空中物体检测中的低于10像素目标、密集遮挡和计算限制等问题。该方法通过多尺度上下文融合和门控卷积等技术,提高了检测的准确性和效率,并在VisDrone2019数据集上取得了优异表现。
本研究提出了一种创新的三维物体检测方法DEST,利用交互式状态空间模型克服了DETR在三维室内物体检测中的性能限制。实验结果表明,该方法在ScanNet V2和SUN RGB-D数据集上显著提升了检测性能,创造了新的SOTA标准。
本研究针对视频时刻检索中的短时刻定位问题,提出了MomentMix和长度感知解码器,显著增强了短时刻的特征表示及其中心位置预测。实验证明,该方法在多个基准数据集上超越了现有的DETR模型,特别是在短时刻的定位上表现突出,具有重要的实际应用潜力。
该研究解决了未知物体检测(UOD)中物体性学习的监督信号与定位或分类信息无关所导致的性能不足问题。本文提出了基于变换器的UOD框架UN-DETR,一种通过联合监督学习综合利用位置与类别潜在空间中的属性,显著增强物体性学习,从而在多项UOD和已知检测基准上取得了最先进的性能。
本研究解决了现有检测变压器训练方法中未能有效利用多任务学习的问题。我们提出了一种新的多路训练机制,同时进行一对一和一对多的预测,实验结果显示此方法能够显著提升检测性能,并对检测变压器的设计和实际应用产生积极影响。
本研究提出Elastic-DETR策略,解决了物体检测器中多尺度图像分辨率手动超参数选择的灵活性限制。通过优化尺度损失和分布损失,模型在MS COCO数据集上实现了最高3.5%的准确率提升或26%的计算复杂度降低。
本研究提出DEIM框架,解决了基于Transformer的实时目标检测中的一对一匹配稀疏监督问题,优化了匹配质量,缩短了训练时间,提高了检测精度。
飞桨发布的Mask-RT-DETR模型在实例分割任务中表现优异,支持134个模型。该模型基于RT-DETR优化,采用PP-HGNetV2作为骨干网络,提升了精度和速度。通过IoU-aware Query Selection和MaskDINOHead技术,Mask-RT-DETR在相同推理耗时下达到了SOTA级别的精度,适用于多个领域。
现有方法使用视觉-语言模型如CLIP来增强开放词汇目标检测,但存在概念表示不足和过拟合问题。为此,提出LaMI策略,通过语言模型指令改善概念表示,避免过拟合。LaMI-DETR结合GPT和T5构建视觉概念,提升检测性能。实验显示,该方法在不依赖外部资源的情况下显著提升了泛化能力。
我们提出了一种名为RefineBox的框架,通过在现有DETR模型上添加轻量级细化网络来改进定位问题,而无需重新设计和训练。该方法简单易行,适用于多种模型。实验表明,RefineBox有效解决了定位瓶颈。
现有视频检索和亮点检测方法存在对齐问题,影响性能。本文提出结合显著性引导的交叉注意力机制与混合DETR架构的新方法,提升性能。使用InterVid-MR数据集预训练,在多个基准上取得先进结果,提供高效可扩展的解决方案。
该研究提出了一种新的混合关系分配方法,解决了基于DETR的场景图生成模型的挑战。实验结果表明,该方法在VG150和Open Images V6等数据集上取得了最先进的性能。
实例分割是计算机视觉中的重要任务,能够提供丰富详细的信息,广泛应用于多个领域。基于百度飞桨发布的RT-DETR模型,Mask-RT-DETR适配实例分割任务,具有优势。Mask-RT-DETR在总体结构上与RT-DETR基本一致,但在实现细节上进行了改进。通过改进,Mask-RT-DETR在实例分割任务中取得了SOTA精度。Mask-RT-DETR采用了PP-HGNetV2作为骨干网络,并引入了MaskFeatFPN模块和IoU-aware Query Selection技术。Mask-RT-DETR还增加了分割头MaskDINOHead。Mask-RT-DETR的benchmark指标达到了SOTA精度。PaddleX提供了多种开发和部署方式,包括云端形式和本地开源版。
本文提出了一种用于增强DET R的通用方案,通过引入编码器构建位置关系嵌入,将DET R扩展为对比关系流水线,解决了非重复预测和正面监督之间的冲突。实验证明该方法在COCO val2017上获得了显著的改进,并具有更快的收敛速度。关系编码器还为任何DET R类方法带来了明显改进,显式位置关系的提出提高了通用目标检测的潜力。
本文提出了一种创新模型,将3D CT图像视为视频,每个切片视为帧,将肺结节视为对象,实现对2D数据的高效处理,并利用3D图像上下文进行准确识别。该网络在敏感性和竞赛性能方面表现出色,准确性显著优于最先进技术。
本研究提出了一种新的预测反馈DETR框架,解决了基于DETR的时序动作检测中自注意力导致的表现下降问题。通过恢复交叉与自注意力的对齐,大幅提升了在多个基准测试中的表现。
本研究提出了一种基于DETR的视觉交集网络(VINO),解决了开放集物体检测中语言与视觉模态之间的巨大差异所带来的挑战。VINO通过建立多图像视觉库来保留各个类别的语义交集,提高了特征表示的优化能力和效率。VINO在资源要求较低的情况下,达到了与视觉-语言模型相媲美的性能。
本文介绍了使用少样本进行卫星图像目标检测的方法,通过大规模预训练模型构建类参考嵌入或原型,并微调原型以提高性能。研究结果表明,视觉特征优于视觉语言模型,开发的检测器在两个遥感数据集上表现出优异性能。
Efficient DETR是一种新的目标检测框架,结合了密集和稀疏检测。它使用密集先验来初始化目标容器,并弥合了单层和六层解码器之间的差距。在MS COCO和CrowdHuman数据集上的实验结果表明,Efficient DETR仅使用三个编码器层和一个解码器层就能达到与最先进方法相竞争的性能。该论文还探讨了DETR的不同组件的影响,并提出了改进措施以解决其局限性。
完成下面两步后,将自动完成登录并继续当前操作。