本研究分析了视觉-语言模型在生成指称表达时的不足,提出了新数据集RefOI,揭示了模型在识别参照物、信息冗余和人类偏好不匹配等方面的缺陷,强调了实用性模型的重要性。
本研究提出了动态门约束模块(DGC)和表达引导回归策略(EGR),以提升基于图的指称表达理解方法在处理复杂模型和大规模数据集时的性能。该方法在多个数据集上表现出色,超越了现有的变压器基础方法。
本文介绍了一种高效的迁移学习方法,将自然领域的视觉-语言知识转移到遥感领域的图像-文本检索任务上。通过预训练的CLIP模型、多模态遥感适配器和混合多模态对比学习目标,解决了遥感数据中高内部相似性的问题。实证研究结果表明,该方法在RSITR任务上具有应用潜力,可以节省训练成本并提高检索性能,为RS视觉-语言任务提供新思路和见解。
本论文介绍了CRUW3D数据集,包含66K个同步校准的相机、雷达和激光雷达帧,以射频张量的格式呈现。数据集提供了3D位置和时空语义信息,适用于自主车辆的感知系统。
本研究提出了一种利用图像标题和对象边界框注释的弱监督学习方法,用于预测图像中实体之间的关系。通过关注机制和标题的语法结构,训练关系分类网络,获得基于现实的字幕和稠密的关系。在 Visual Genome 数据集上展示了模型的有效性,成功预测了与字幕中不存在的关系,关系召回率达到15%(@50)和25%(@100)。
本文探讨了意向性的概念及其在哲学和现象学中的作用,讨论了意向性所指向的对象的特征以及本体论问题。弗雷格提出了英文专名的指称和意义的区分。ChatGPT从形式上推理推测,最终与人类在某个上下文内容中达成对话的可能。
本文介绍了基于Ego4D的RefEgo数据集,包含12k个视频剪辑和41小时的引用表达理解批注。通过结合最先进的2D引用表达理解模型和对象跟踪算法,实现了困难条件下的视频对象跟踪。
完成下面两步后,将自动完成登录并继续当前操作。