360+x: 一个全景多模态场景理解数据集

原文约400字,阅读约需1分钟。发表于:

该研究使用多个视角和多种数据模式,提供全景视角和个人视角的场景理解数据集,以模拟真实世界中的信息访问方式,并通过 5 个不同的场景理解任务对数据集进行了评估,希望为综合场景理解提供更广泛的范围和多元化视角。

本研究提出了一种基于Transformer的跨模态融合架构,用于弥合多模态融合与全景场景感知之间的差距,并使用失真感知模块来处理极端对象变形和全景失真。通过跨模态交互实现特征矫正和信息交换,最终将特征合并以传达双模态和三模态特征流的长程上下文。通过在三个室内全景数据集中四种不同模态类型的组合进行彻底测试,技术在Stanford2D3DS(RGB-HHA)上达到了60.60%的mIoU性能,Structured3D(RGB-D-N)上达到了71.97%的mIoU性能,Matterport3D(RGB-D)上达到了35.92%的mIoU性能。

相关推荐 去reddit讨论