本文提出了多种轨迹建模方法,包括基于元路径的特征提取、分层时空注意力神经网络(AttnTUL)、空间-时间联合表示学习(ST-GraphRL)和多视角建模方法(MVTraj),显著提升了轨迹预测和分类性能,尤其在复杂城市环境中表现优越。
本文介绍了学生课堂行为数据集(SCB-dataset),重点检测举手、阅读和书写等行为。研究采用YOLOv7算法,平均精度达到85.3%,并通过改进方法提升至87.1%。此外,研究探讨了通过学生动作和情绪识别衡量参与度,提出时空注意力方法(BDSTA),提高了行为分类准确率。该数据集为学生行为检测研究提供了重要基础。
本文介绍了一种基于低秩适应的时空注意力层的视频生成模型,该模型能够从单个参考视频中学习运动信息,适应新主题和场景。通过引入运动个性化和伪光流技术,提升了视频编辑能力,并提出了TI2V任务和MAGE生成器,验证了其在文本到视频生成中的有效性。
本研究提出了一种名为GEAN的视频字幕生成模型,利用人眼注视追踪数据提升字幕生成的时空注意力。实验结果显示,该模型在多个数据集上表现优异,成为先进的视频字幕生成方法。此外,研究探讨了基于人类凝视的深度学习模型在第一人称视角下的应用,展示了其在动作识别和视觉关注估计方面的优势。
该研究提出了一种名为GEAN的视频字幕模型,利用人眼注视追踪数据提供时空注意力,提高视频字幕生成任务的性能。该方法在多个数据集中展示了领先的性能,成为最先进的视频字幕生成方法。
完成下面两步后,将自动完成登录并继续当前操作。