小红花·文摘

本文讨论了自监督视觉模型DINO及其在目标检测中的应用，重点介绍了Grounding DINO和DINO-X。Grounding DINO通过语言信息将闭集检测器扩展到开放集场景，采用双编码器-单解码器架构，结合图像和文本特征进行对象检测，创新设计了特征提取、增强和查询选择等方面，以提升检测性能。

IDEA-Research推出的一系列检测、分割模型：从DINO(改进版DETR)、Grounding Dino、DINO-X到Grounded SAM2

结构之法算法之道 ·

本研究提出了一种新颖的变接收场DETR（VRF-DETR）方法，旨在解决无人机空中物体检测中的低于10像素目标、密集遮挡和计算限制等问题。该方法通过多尺度上下文融合和门控卷积等技术，提高了检测的准确性和效率，并在VisDrone2019数据集上取得了优异表现。

Efficient Aerial Image Detection with Variable Receptive Fields

BriefGPT - AI 论文速递 ·

本研究提出了一种创新的三维物体检测方法DEST，利用交互式状态空间模型克服了DETR在三维室内物体检测中的性能限制。实验结果表明，该方法在ScanNet V2和SUN RGB-D数据集上显著提升了检测性能，创造了新的SOTA标准。

Combining State Space Models with Transformers: A New Paradigm for 3D Object Detection

BriefGPT - AI 论文速递 ·

本研究针对视频时刻检索中的短时刻定位问题，提出了MomentMix和长度感知解码器，显著增强了短时刻的特征表示及其中心位置预测。实验证明，该方法在多个基准数据集上超越了现有的DETR模型，特别是在短时刻的定位上表现突出，具有重要的实际应用潜力。

基于长度感知的DETR模型用于鲁棒时刻检索

BriefGPT - AI 论文速递 ·

该研究解决了未知物体检测（UOD）中物体性学习的监督信号与定位或分类信息无关所导致的性能不足问题。本文提出了基于变换器的UOD框架UN-DETR，一种通过联合监督学习综合利用位置与类别潜在空间中的属性，显著增强物体性学习，从而在多项UOD和已知检测基准上取得了最先进的性能。

UN-DETR：通过联合监督促进未知物体检测中的物体性学习

BriefGPT - AI 论文速递 ·

本研究解决了现有检测变压器训练方法中未能有效利用多任务学习的问题。我们提出了一种新的多路训练机制，同时进行一对一和一对多的预测，实验结果显示此方法能够显著提升检测性能，并对检测变压器的设计和实际应用产生积极影响。

Mr. DETR：用于检测变压器的指导性多路训练

BriefGPT - AI 论文速递 ·

本研究提出Elastic-DETR策略，解决了物体检测器中多尺度图像分辨率手动超参数选择的灵活性限制。通过优化尺度损失和分布损失，模型在MS COCO数据集上实现了最高3.5%的准确率提升或26%的计算复杂度降低。

弹性-DETR：通过内容特定的网络预测让图像分辨率可学习

BriefGPT - AI 论文速递 ·

本研究提出DEIM框架，解决了基于Transformer的实时目标检测中的一对一匹配稀疏监督问题，优化了匹配质量，缩短了训练时间，提高了检测精度。

DEIM：带有改进匹配的DETR以实现快速收敛

BriefGPT - AI 论文速递 ·

飞桨发布的Mask-RT-DETR模型在实例分割任务中表现优异，支持134个模型。该模型基于RT-DETR优化，采用PP-HGNetV2作为骨干网络，提升了精度和速度。通过IoU-aware Query Selection和MaskDINOHead技术，Mask-RT-DETR在相同推理耗时下达到了SOTA级别的精度，适用于多个领域。

PaddleX昇腾版上新 | Mask-RT-DETR，实例分割新SOTA

百度大脑 ·

现有方法使用视觉-语言模型如CLIP来增强开放词汇目标检测，但存在概念表示不足和过拟合问题。为此，提出LaMI策略，通过语言模型指令改善概念表示，避免过拟合。LaMI-DETR结合GPT和T5构建视觉概念，提升检测性能。实验显示，该方法在不依赖外部资源的情况下显著提升了泛化能力。

LaMI-DETR：基于GPT丰富优化的开放词汇目标检测 | ECCV'24 - 晓飞的算法工程笔记

晓飞的算法工程笔记 ·

我们提出了一种名为RefineBox的框架，通过在现有DETR模型上添加轻量级细化网络来改进定位问题，而无需重新设计和训练。该方法简单易行，适用于多种模型。实验表明，RefineBox有效解决了定位瓶颈。

D-FINE：将DETR中的回归任务重新定义为细粒度分布精炼

BriefGPT - AI 论文速递 ·

现有视频检索和亮点检测方法存在对齐问题，影响性能。本文提出结合显著性引导的交叉注意力机制与混合DETR架构的新方法，提升性能。使用InterVid-MR数据集预训练，在多个基准上取得先进结果，提供高效可扩展的解决方案。

基于显著性引导的DETR用于时刻检索和亮点检测

BriefGPT - AI 论文速递 ·

该研究提出了一种新的混合关系分配方法，解决了基于DETR的场景图生成模型的挑战。实验结果表明，该方法在VG150和Open Images V6等数据集上取得了最先进的性能。

实例分割是计算机视觉中的重要任务，能够提供丰富详细的信息，广泛应用于多个领域。基于百度飞桨发布的RT-DETR模型，Mask-RT-DETR适配实例分割任务，具有优势。Mask-RT-DETR在总体结构上与RT-DETR基本一致，但在实现细节上进行了改进。通过改进，Mask-RT-DETR在实例分割任务中取得了SOTA精度。Mask-RT-DETR采用了PP-HGNetV2作为骨干网络，并引入了MaskFeatFPN模块和IoU-aware Query Selection技术。Mask-RT-DETR还增加了分割头MaskDINOHead。Mask-RT-DETR的benchmark指标达到了SOTA精度。PaddleX提供了多种开发和部署方式，包括云端形式和本地开源版。

IDEA-Research推出的一系列检测、分割模型：从DINO(改进版DETR)、Grounding Dino、DINO-X到Grounded SAM2

Efficient Aerial Image Detection with Variable Receptive Fields

Combining State Space Models with Transformers: A New Paradigm for 3D Object Detection

基于长度感知的DETR模型用于鲁棒时刻检索

UN-DETR：通过联合监督促进未知物体检测中的物体性学习

Mr. DETR：用于检测变压器的指导性多路训练

弹性-DETR：通过内容特定的网络预测让图像分辨率可学习

DEIM：带有改进匹配的DETR以实现快速收敛

PaddleX昇腾版上新 | Mask-RT-DETR，实例分割新SOTA

LaMI-DETR：基于GPT丰富优化的开放词汇目标检测 | ECCV'24 - 晓飞的算法工程笔记

D-FINE：将DETR中的回归任务重新定义为细粒度分布精炼

基于显著性引导的DETR用于时刻检索和亮点检测

水蛇-场景图生成：一种混合关系分配的一阶段方法

Mask-RT-DETR，实例分割新SOTA，首发PaddleX

通过查询选择进行知识蒸馏的检测变压器

肺部DETR：用于稀疏肺结节异常检测的可变形检测变换器

时序动作检测的预测反馈DETR

更多的图像意味着更多：用于开放集物体检测的视觉交集网络

OVA-DETR：基于图像-文本对齐和融合的开放词汇空中目标检测

Efficient DETR：别再随机初始化了，旷视提出单解码层的高效DETR | CVPR 2021 - 晓飞的算法工程笔记