MLS-Track:RMOT 中的多层语义交互
原文中文,约300字,阅读约需1分钟。发表于: 。通过使用 Unreal Engine 5 构建了一个名为 Refer-UE-City 的全新基准数据集,其中包括了交叉口监控视频中的人和车的外观和行为细节,并提出了一种多层语义引导的多目标追踪框架 MLS-Track,通过引入语义引导模块 (SGM) 和语义相关分支 (SCB) 逐层增强模型与文本之间的交互,实验结果表明该框架具有最先进的性能。
该研究引入了Semantic Multi-Object Tracking (SMOT)技术,旨在估计物体的轨迹并理解与轨迹相关的语义细节。同时,介绍了用于SMOT的大规模基准测试集BenSMOT,并提出了专门为SMOT设计和训练的新型跟踪器SMOTer。该研究的目标是推动跟踪领域朝着了解视频的新方向发展。