本研究探讨了可见光-红外人员再识别的多种方法,提出了基于批量归一化的交叉模态神经架构搜索(CM-NAS)和无监督匹配框架,显著提升了跨模态匹配性能。通过模态统一网络和多内存匹配框架,解决了模态差异和类内变异问题,实验结果在多个数据集上优于现有方法。
该研究提出了一种双任务相互强化嵌入联合视频段落检索与定位方法(DMR-JRG),旨在减少视频段落定位对大量标注时间标签的依赖。通过检索和定位任务的相互促进,构建了特征空间,实现了精确的跨模态匹配与定位。
本文介绍了多种基于文本的自然语言人物检索方法,采用注意力机制、双编码器和跨模态匹配等技术,显著提升了检索精度。这些方法在多个数据集上表现优异,推动了监控视频检索领域的发展。
FAME Challenge 2024 探索面部与语音的多语言关联,利用 MAV-Celeb 数据集,提出跨模态匹配和多任务学习方法,以提升语音与面部关联的识别性能,尤其在深度伪造视频检测中表现突出。
本文提出了多种方法解决语视导航中的跨模态匹配和泛化问题,包括强化跨模态匹配和自监督模仿学习。这些方法显著提高了成功率和准确度,尤其在未见环境中的表现。探索性语义特征的使用有效降低了已看与未见之间的性能差距,推动了视觉与语言导航的进展。
完成下面两步后,将自动完成登录并继续当前操作。