全景活动识别的混合参数 Transformer
原文中文,约300字,阅读约需1分钟。发表于: 。我们提出了一种名为 MPT-PAR 的模型,同时考虑到每个任务的独特特征和不同任务之间的协同效应,从而最大限度地利用多粒度活动识别中的特征,通过引入时空关系增强模块和场景表示学习模块强调了时空信息的重要性,并将动作和全局场景的时空上下文整合到每个粒度的特征图中,在 JRDB-PAR 数据集上取得了 47.5% 的整体 F1 得分,显著优于目前的所有最先进的方法。
我们提出了一种名为MPT-PAR的模型,通过考虑每个任务的独特特征和不同任务之间的协同效应,最大限度地利用多粒度活动识别中的特征。该模型通过引入时空关系增强模块和场景表示学习模块,强调了时空信息的重要性,并将动作和全局场景的时空上下文整合到每个粒度的特征图中。在JRDB-PAR数据集上,该模型取得了47.5%的整体F1得分,显著优于目前的所有最先进的方法。