本研究分析了视觉-语言模型在生成指称表达时的不足,提出了新数据集RefOI,揭示了模型在识别参照物、信息冗余和人类偏好不匹配等方面的缺陷,强调了实用性模型的重要性。
本文介绍了一种新的端到端模型SSG,用于图像中定位所指物体。该模型通过多模态交互和引导注意机制提升性能,实验结果显示其在多个数据集上表现优异,能够快速准确地完成物体定位。
本文介绍了PETAL、CREC和IISAN等新颖的视觉-语言模型训练方法,强调了参数高效调优和迁移学习在降低训练成本和提升性能方面的优势。这些方法在少样本设置和遥感数据处理上表现出色,展现了良好的应用潜力和灵活性。
本文介绍了CRUW3D数据集,包含66K个同步的相机、雷达和激光雷达帧,强调相机与雷达的协作。通过CenterRadarNet进行4D雷达数据的高分辨率表示学习,取得了3D物体检测的最新成果。此外,提出了LiDAR Grounding任务和MSSG方法,提升了定位精度。研究表明,4D雷达在恶劣天气下的物体检测表现优于传统摄像头和激光雷达。
本研究提出了一种利用图像标题和对象边界框注释的弱监督学习方法,用于预测图像中实体之间的关系。通过关注机制和标题的语法结构,训练关系分类网络,获得基于现实的字幕和稠密的关系。在 Visual Genome 数据集上展示了模型的有效性,成功预测了与字幕中不存在的关系,关系召回率达到15%(@50)和25%(@100)。
本文探讨了意向性的概念及其在哲学和现象学中的作用,讨论了意向性所指向的对象的特征以及本体论问题。弗雷格提出了英文专名的指称和意义的区分。ChatGPT从形式上推理推测,最终与人类在某个上下文内容中达成对话的可能。
本文介绍了基于Ego4D的RefEgo数据集,包含12k个视频剪辑和41小时的引用表达理解批注。通过结合最先进的2D引用表达理解模型和对象跟踪算法,实现了困难条件下的视频对象跟踪。
完成下面两步后,将自动完成登录并继续当前操作。