本研究提出了一种新颖的场景流估计网络MambaFlow,旨在解决时空建模不足和细粒度特征损失的问题。实验结果表明,该网络在Argoverse 2基准测试中表现优异,并具备实时推理能力。
本文介绍了多种少样本动作识别框架,如STRM、SloshNet和SAFSAR,强调通过特征学习和时空建模来提升识别性能。实验结果表明,这些方法在多个基准数据集上表现优异,推动了该领域的发展。
本文提出了一种名为STAN的时空建模机制,旨在将图像-文本预训练模型扩展到视频领域,以提升视频文本检索和识别的性能。研究中使用了CLIP模型,结合多模态学习和对比学习框架,在多个基准数据集上取得了最新的检索准确性记录。
本文介绍了一种名为“Fragment and Integrate Network(FIN)”的新型时空建模范式,用于解决在线位置服务中的点击率预测任务。通过实证分析验证了FIN的准确性和可扩展性。FIN已在中国在线订餐平台“饿了么”的推荐广告系统中全面部署,并取得了显著改进。
完成下面两步后,将自动完成登录并继续当前操作。