小红花·文摘

本研究提出了VISLIX框架，用于验证视觉模型，解决数据切片方法中的挑战，如缺乏图像元数据。VISLIX能够自动生成自然语言洞察，支持用户与数据切片假设的互动测试，从而提升对象检测模型的验证过程。

VISLIX: An Explainable AI Framework for Validating Vision Models through Slice Discovery and Analysis

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法，通过领域约束实现神经网络的任务专门化，能够在不增加数据或改变训练方式的情况下，提高图像分类和对象检测的准确度，为动态可配置图像分析系统的发展提供新方向。

通过领域约束实现神经网络任务专门化

BriefGPT - AI 论文速递 ·

该研究提出了一种新框架，通过微调开放集对象检测器，整合遥感图像中的对象检测与视觉定位，显著提高了检测效果。

MB-ORES：一种用于遥感中视觉定向的多分支对象推理器

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法，通过概念对齐解决开放词汇对象检测中的未见类别测试问题，显著提升了COCO和LVIS基准的检测性能与计算效率。

Sampling View Package for Open-Vocabulary Object Detection

BriefGPT - AI 论文速递 ·

在直播流上构建实时对象检测

DEV Community ·

本研究提出了“箱子用于掩码”和“掩码用于箱子”两种策略及其结合方式BoMBo，以解决多任务部分监督学习中对象检测与语义分割的信息利用不足问题。实验结果表明，在VOC和COCO数据集上取得了显著提升。

箱子用于掩码，掩码用于箱子：多任务部分监督学习的弱损失

BriefGPT - AI 论文速递 ·

本研究提出了一种新型局部-全局注意力机制，解决了对象检测中局部与全局特征平衡不足的问题。该机制结合多尺度卷积与位置编码，动态调整局部与全局注意力的重要性，显著提升了不同尺度对象的检测能力，尤其在多类和小物体检测中表现优异。

Local-Global Attention: An Adaptive Mechanism for Multi-Scale Feature Fusion

BriefGPT - AI 论文速递 ·

该研究提出了任务导向自适应调节（T-OAR）机制和任务相关动态提示注入（T-DPI）模块，以解决红外与可见图像融合在多任务处理中的复杂性和性能下降问题。这些方法在对象检测、语义分割和显著性目标检测等任务中表现优异，提升了图像融合的效率与适应性。

Instruction-Driven Fusion of Infrared-Visible Images: Customization for Diverse Downstream Tasks

BriefGPT - AI 论文速递 ·

本研究提出了一种低成本的无监督领域适应方法，有效解决了精细农业中视觉模型在新领域的适应性问题，显著提升了对象检测和关键点检测的精度。

From Network Data to Real-World Scenarios: Low-Cost Unsupervised Domain Adaptation for Agricultural Robots

BriefGPT - AI 论文速递 ·

该研究使用Transformer架构自动检测图像中的对象，并关联注视，实现可解释的注视分析。方法在目标检测、注视距离、对象分类和定位上均有显著提升，AUC提高2.91%，注视距离减少50%，分类和定位精度提高11-13%。

基于上半身姿态的隐私保护3D注视目标检测

BriefGPT - AI 论文速递 ·

本文综述了航空数据分析中的计算机视觉任务，包括对象检测、变化检测、对象分割和场景级分析等关键任务。对不同架构和任务中使用的超参数进行了比较，并讨论了具有不同领域专业知识的库。通过案例研究，提出了实用解决方案来应对航空数据分析中的挑战，并指出了未解决的重要问题。

无人机（UAV）：无人机数据集在分割、分类、检测和追踪中的多样化应用

BriefGPT - AI 论文速递 ·

本研究提出了MV2DFusion框架，通过查询融合机制，结合图像和点云数据的特定语义，实现了高效、准确的对象检测。实验结果表明，在nuScenes和Argoverse2数据集上表现出色，尤其在远程检测场景中有潜在影响。

MV2DFusion：利用特定模态对象语义进行多模态3D检测

BriefGPT - AI 论文速递 ·

本文介绍了一种创新方法，结合语言嵌入式3D高斯和大型语言模型（LLMs），用于增强自动驾驶中的开放词汇3D场景理解的推理能力。实验结果表明，该方法在对象检测和分割方面超过了最先进的方法，是自动驾驶系统方面的重要进展。

自动驾驶中基于 LLM 的增强式开放词汇的 3D 场景理解

BriefGPT - AI 论文速递 ·

该研究使用基于Transformer的架构自动检测图像中的对象，并建立对象与注视的关联，实现全面的、可解释的注视分析。该方法在各项指标上取得了最新的成果，对注视目标检测、注视距离、注视对象分类和定位平均精度均有显著提高。

OAT: 目标层级注意力变换器用于凝视扫描路径预测

BriefGPT - AI 论文速递 ·

本文介绍了新的SIP数据集和D3Net模型，填补了RGB-D信息在人类活动场景中突出对象检测方面的空白。通过评估32个模型和18个部分在7个数据集上的表现，D3Net模型超过了竞争者，为该领域的研究提供了强有力的模型。该模型可以从实际场景中提取突出的物体掩码，并以65fps的速度进行背景更改应用。

ViDSOD-100: 一个新的 RGB-D 视频显著物体检测数据集和基线模型

BriefGPT - AI 论文速递 ·

该文章介绍了DiffusionDet，一种基于视觉的自动驾驶对象检测框架。该框架利用单目相机和深度传感器的数据融合，通过特征融合提高汽车目标的检测能力。实验结果显示，在KITTI数据集上取得了2.3的AP增益，尤其在检测小物体方面表现出改进性能。

使用 RGB-D 融合在 DiffusionDet 框架中增强的汽车物体检测

BriefGPT - AI 论文速递 ·

该文章介绍了一种名为“灵活字幕”的多功能视觉语言模型（VLM），能够生成长度不同的区域特定描述。该模型在密集字幕任务、视觉问答和对象检测等领域具有广泛应用的优越性能。

视觉事实查证：实现高保真详细标题生成

BriefGPT - AI 论文速递 ·

研究发现，当LLM（GPT-4）只有对象检测和分割视觉模型的访问权限时，它可以直接预测操作技能的末端执行器姿态。LLMs具备理解低级机器人控制的能力，并能检测失败并重新规划轨迹。

GPT-4V 闭环开词汇库移动操作

BriefGPT - AI 论文速递 ·

如何使用人工智能技术进行图像识别和对象检测？

龙鲲博客 ·

研究发现，当LLM（GPT-4）只有对象检测和分割视觉模型的访问权限时，它可以直接预测操作技能的密集序列的末端执行器姿态。LLMs具备理解低级机器人控制的能力，并能检测到失败并重新规划轨迹。

利用 YOLO-World 和 GPT-4V LMMs 在无人机图像中实现零样本人员检测和动作识别

BriefGPT - AI 论文速递 ·