本文讨论了自监督视觉模型DINO及其在目标检测中的应用,重点介绍了Grounding DINO和DINO-X。Grounding DINO通过语言信息将闭集检测器扩展到开放集场景,采用双编码器-单解码器架构,结合图像和文本特征进行对象检测,创新设计了特征提取、增强和查询选择等方面,以提升检测性能。
本研究提出了一种新颖的变接收场DETR(VRF-DETR)方法,旨在解决无人机空中物体检测中的低于10像素目标、密集遮挡和计算限制等问题。该方法通过多尺度上下文融合和门控卷积等技术,提高了检测的准确性和效率,并在VisDrone2019数据集上取得了优异表现。
本研究提出了一种创新的三维物体检测方法DEST,利用交互式状态空间模型克服了DETR在三维室内物体检测中的性能限制。实验结果表明,该方法在ScanNet V2和SUN RGB-D数据集上显著提升了检测性能,创造了新的SOTA标准。
本研究针对视频时刻检索中的短时刻定位问题,提出了MomentMix和长度感知解码器,显著增强了短时刻的特征表示及其中心位置预测。实验证明,该方法在多个基准数据集上超越了现有的DETR模型,特别是在短时刻的定位上表现突出,具有重要的实际应用潜力。
该研究解决了未知物体检测(UOD)中物体性学习的监督信号与定位或分类信息无关所导致的性能不足问题。本文提出了基于变换器的UOD框架UN-DETR,一种通过联合监督学习综合利用位置与类别潜在空间中的属性,显著增强物体性学习,从而在多项UOD和已知检测基准上取得了最先进的性能。
本研究解决了现有检测变压器训练方法中未能有效利用多任务学习的问题。我们提出了一种新的多路训练机制,同时进行一对一和一对多的预测,实验结果显示此方法能够显著提升检测性能,并对检测变压器的设计和实际应用产生积极影响。
本研究提出了Elastic-DETR策略,解决了现有物体检测器在多尺度图像分辨率手动超参数选择上的灵活性限制。该策略通过优化尺度损失和分布损失,使模型能够自适应利用多种分辨率,在MS COCO数据集上提高了最高3.5%的准确率或降低26%的计算复杂度。
本研究提出DEIM框架,解决了基于Transformer的实时目标检测中的一对一匹配稀疏监督问题,优化了匹配质量,缩短了训练时间,提高了检测精度。
飞桨发布的Mask-RT-DETR模型在实例分割任务中表现优异,支持134个模型。该模型基于RT-DETR优化,采用PP-HGNetV2作为骨干网络,提升了精度和速度。通过IoU-aware Query Selection和MaskDINOHead技术,Mask-RT-DETR在相同推理耗时下达到了SOTA级别的精度,适用于多个领域。
现有方法使用视觉-语言模型如CLIP来增强开放词汇目标检测,但存在概念表示不足和过拟合问题。为此,提出LaMI策略,通过语言模型指令改善概念表示,避免过拟合。LaMI-DETR结合GPT和T5构建视觉概念,提升检测性能。实验显示,该方法在不依赖外部资源的情况下显著提升了泛化能力。
该论文提出了多种改进的目标检测方法,包括基于CNN的模型、改进的One-Stage Detector、边界框学习分布和知识蒸馏,旨在提高检测精度和效率。特别是RefineBox框架通过优化DETR-like模型的定位问题,展示了显著的性能提升。
本文介绍了多个视频时刻检索和精彩片段检测的模型及其进展,包括QVHIGHLIGHTS数据集、UMT框架、TSQNet、Query-Dependent DETR、MH-DETR、BM-DETR和TR-DETR等。这些模型通过新机制和优化方法提升了视频分析的准确性和鲁棒性,并在多个数据集上表现优越。
该研究提出了一种新的混合关系分配方法,解决了基于DETR的场景图生成模型的挑战。实验结果表明,该方法在VG150和Open Images V6等数据集上取得了最先进的性能。
实例分割是计算机视觉中的重要任务,能够提供丰富详细的信息,广泛应用于多个领域。基于百度飞桨发布的RT-DETR模型,Mask-RT-DETR适配实例分割任务,具有优势。Mask-RT-DETR在总体结构上与RT-DETR基本一致,但在实现细节上进行了改进。通过改进,Mask-RT-DETR在实例分割任务中取得了SOTA精度。Mask-RT-DETR采用了PP-HGNetV2作为骨干网络,并引入了MaskFeatFPN模块和IoU-aware Query Selection技术。Mask-RT-DETR还增加了分割头MaskDINOHead。Mask-RT-DETR的benchmark指标达到了SOTA精度。PaddleX提供了多种开发和部署方式,包括云端形式和本地开源版。
该研究提出了一种新型目标检测方法DETR,利用Transformer架构和全局损失,显著提升了检测和分割性能。通过多查询本地化、知识蒸馏和语义对齐等技术,改善了检测精度和收敛速度。此外,关系编码器和新数据集的引入进一步优化了目标检测效果,展示了DETR在多个任务中的优越性能。
本文比较了LUNA16挑战中的不同自动检测算法,发现结合卷积网络和结节候选集可实现超过95%的灵敏度。研究提出了NoduleNet和自监督3D变形器模型等多种改进方法,显著提高了肺结节检测的精度。最新模型结合卷积神经网络和视觉变换器,达到了97.84%的敏感度,展现了在医学影像检测中的潜力。
本研究提出了一种新的预测反馈DETR框架,解决了基于DETR的时序动作检测中自注意力导致的表现下降问题。通过恢复交叉与自注意力的对齐,大幅提升了在多个基准测试中的表现。
该研究提出了一种新型目标检测方法DETR,基于Transformer架构实现高效的目标检测和分割。研究回顾了相关文献,探讨了DETR在医学成像和自动驾驶中的应用,分析了其在处理遮挡和对抗扰动方面的表现,并提出了改进方案。
本文介绍了多种开放词汇检测(OVD)方法,如OV-DETR、SAM-DETR++和DetCLIP,展示了它们在不同数据集上的显著性能提升。研究表明,结合视觉和语言模型的技术能有效提高目标检测的准确性和泛化能力,尤其在遥感图像中表现优异。OVLW-DETR作为一种新型检测器,具备低延迟和高性能,适合实时应用。
Efficient DETR是一种新的目标检测框架,结合了密集和稀疏检测。它使用密集先验来初始化目标容器,并弥合了单层和六层解码器之间的差距。在MS COCO和CrowdHuman数据集上的实验结果表明,Efficient DETR仅使用三个编码器层和一个解码器层就能达到与最先进方法相竞争的性能。该论文还探讨了DETR的不同组件的影响,并提出了改进措施以解决其局限性。
完成下面两步后,将自动完成登录并继续当前操作。