本研究提出了一种新方法,结合3D姿态估计与身体建模,解决舞蹈风格识别中的时间上下文缺失问题,准确率最高达到99.18%。
本研究提出了一种新的时间视频状态空间共享架构(TV3S),有效解决了传统视频语义分割方法在处理时间上下文时的不足。TV3S通过选择性门控机制高效传播信息,显著提升了长视频序列的处理能力与准确性,超越了现有的最先进方法。
本研究提出了LaneTCA方法,用于车道检测中聚合连续帧的时间上下文。实验结果显示该方法在两个基准数据集上表现最佳。
本文介绍了TCTrack航空追踪框架,利用时间上下文进行特征提取和相似度图优化。实验结果显示,TCTrack在四个航空追踪基准测试数据集上表现出色,并在NVIDIA Jetson AGX Xavier上实现了高达27 FPS的高速。
本文介绍了一种在移动设备上部署的自监督学习模型,用于学习通用音频表示。该模型利用时间上下文来估计音频片段之间的时间间隔,并重建时间频谱图切片。研究表明,该模型在多个下游任务中可重复使用,性能接近全监督模型。
本文介绍了一种在移动设备上部署的自监督学习模型,用于学习通用音频表示。该模型利用频谱图域中的时间上下文,通过估计音频片段之间的时间间隔或重建时间频谱图切片来学习。研究表明,这种模型可以在多个下游任务中重复使用,并且与全监督模型的性能接近。
完成下面两步后,将自动完成登录并继续当前操作。