小红花·文摘

本研究提出了COUNTS，一个大规模的OOD数据集，旨在评估目标检测器和多模态大语言模型在分布变化下的泛化能力。研究表明，尽管大模型在标准数据集上表现良好，但在OOD场景中仍存在显著的性能限制。

COUNTS: Benchmarking Object Detectors and Multimodal Large Language Models under Distribution Shifts

BriefGPT - AI 论文速递 ·

本论文介绍了一种名为ScaleDet的可扩展多数据集目标检测器，通过增加训练数据集来提高其跨数据集的泛化能力。ScaleDet使用简单且可扩展的公式来统一多个数据集的标签空间，并通过视觉文本对齐进行训练。实验证明，ScaleDet在多个数据集上表现出良好的性能和可扩展性。

ScaleDet：AWS 基于标签相似性提出可扩展的多数据集目标检测器 | CVPR 2023 - 晓飞的算法工程笔记

晓飞的算法工程笔记 ·

本文介绍了一种可插拔的多模态融合方法M2Doc，用于文档版面分析任务。M2Doc包含两个融合模块，可以将文本和视觉特征融合。实验结果显示使用M2Doc的目标检测器在版面分析数据集上取得了显著提升。该方法在复杂逻辑版面分析场景中能感知文本内容和语义。未来的研究方向包括设计统一高效的多模态模型和更有效的多模态融合策略。

M2Doc：文档版面分析的可插拔多模态融合方法

阿里云云栖号 ·

该文章介绍了半监督领域通用目标检测（SS-DGOD）和弱监督领域通用目标检测（WS-DGOD）两种新的问题设置，利用师生学习框架在有限的标记数据和多个无标记或弱标记数据进行训练。研究结果显示，训练的目标检测器在此设置下明显优于基线检测器，并且与无监督领域自适应（UDA）设置下训练的目标检测器性能相媲美或更好，同时无需使用目标领域数据进行训练。

遥感图像中的弱半监督目标检测

BriefGPT - AI 论文速递 ·

该文研究了基于Transformer的目标检测器(DETR)在处理遮挡和对抗扰动等不同图像干扰方面存在的问题。通过多种实验和基准测试，发现DETR在处理遮挡图像的信息丢失干扰方面表现良好，但在涂有对抗标记的图像上表现较差。此外，DETR在进行预测时严重依赖于主要查询，导致查询之间的贡献不平衡。

一个简单的解释型 Transformer 用于细粒度图像分类与分析

BriefGPT - AI 论文速递 ·

该文研究了基于Transformer的目标检测器(DETR)在处理遮挡和对抗扰动等不同图像干扰方面存在的问题。实验发现DETR在处理遮挡图像的信息丢失干扰方面表现良好，但在涂有对抗标记的图像上表现较差。此外，DETR在预测时严重依赖于主要查询，导致查询之间的贡献不平衡。

基于查询自适应的拥挤行人检测的 DETR

BriefGPT - AI 论文速递 ·

本研究评估了三种模型在遥感图像中太阳能电池板识别方面的监督水平，包括目标检测器、弱监督分类器和异常检测器。分类器表现出色，目标检测器提供了精确的定位。模型结果的融合显示出潜在的准确度提升。

探索不同层次的监督方法用于遥感图像上太阳能电池板的检测与定位

BriefGPT - AI 论文速递 ·

本文介绍了使用在线多目标追踪器和现代目标检测器对SoccerNet 2023跟踪挑战进行球员和球的追踪任务，并使用插值和无外观的轨迹合并进行后处理。该方法获得了第三名，HOTA得分为66.27。

本文介绍了对SoccerNet 2023跟踪挑战的解决方案，包括球员和球的追踪任务。使用了在线多目标追踪器和现代目标检测器进行球员追踪，并引入插值和无外观的轨迹合并进行后处理。同时，使用基于外观的轨迹合并技术处理远离图像边界的轨迹的终止和创建。球的追踪形式化为单个目标检测，借助经过微调的YOLOv8l检测器和专有的过滤器提高检测精度。在SoccerNet 2023跟踪挑战中获得第三名，HOTA得分为66.27。