本研究提出了SpikeVideoFormer,一种高效的脉冲驱动视频变换器,采用汉明注意力和线性时间复杂度。该模型在视频分类、人类姿态跟踪和语义分割等任务中表现优越,显著提升了脉冲神经网络的能效和性能。
本研究提出了TenAd方法,以解决深度学习视频分类模型在黑箱对抗攻击中的脆弱性。通过将视频表示为四阶张量,TenAd显著降低了搜索空间和查询次数,提高了攻击成功率和查询效率,生成几乎不可察觉的对抗扰动。
本文研究视频分类的可解释性,提出了一种名为VIBA的方法,旨在解决视频序列中的信息瓶颈问题。该方法应用于深度伪造检测,展示了其生成一致解释的能力,接近人工注释,为视频分类和检测提供了解释性支持。
本研究通过引入美国手语知识图谱(ASLKG),提高了美国手语(ASL)语言模型的可及性和可解释性。结果表明,基于ASLKG训练的模型在手势识别和视频分类任务中表现优异。
本研究提出了“注意力图流”(AM Flow)方法,旨在解决视频分类中的预训练和训练时间长的问题。通过引入时间处理单元,AM流显著提升了图像模型在动作识别任务上的表现,并有效分离了空间与时间处理,取得了先进的结果。
该论文提出了多种新型网络结构和模型,解决视频分类和动作识别中的挑战,包括时空金字塔池化、注意力机制和图卷积网络等。这些方法在多个数据集上取得了最先进的结果,展现了在少样本学习和交互动作识别中的优越性。
本研究解决了事件摄像头在带宽和计算资源受限情况下,如何有效进行事件子采样以提高分类精度的问题。通过分析不同数据集,发现事件数量可以大幅减少,同时保持较高的准确率,并揭示了高子采样率下CNN模型训练的不稳定性与超参数敏感性。该研究的成果将有助于边缘AI应用中优化数据处理效率与准确性之间的平衡。
该研究提出了一种基于卷积神经网络和注意力机制的少样本视觉学习系统,能够在少量训练数据下有效学习新类别,同时保持对原类别的记忆。模型在Mini-ImageNet数据集上表现优异,并探讨了自我监督学习和特征提取器集成等方法,以提升少样本分类性能。此外,研究还提出了新的基准数据集以促进视频分类研究。
本文介绍了多种视频分类和识别算法的进展,如AdaFrame、SMART和MGSampler,旨在提高分类速度和准确性。通过深度学习和主动学习框架,优化视频帧选择,降低计算成本,同时保持识别效果。此外,研究提出的SSVOD框架利用未标记数据和伪标签,显著提升了视频目标检测性能。
本文综述了音视频学习的最新进展,探讨了音视频分离、对应学习、生成和表示学习等领域,提出了音频视觉融合模型和联合注意力机制等多种方法,展示了在音视频事件定位和分类任务中的优越性能。同时,强调了改进模型泛化能力的必要性,并发布了AV-SUPERB基准以促进相关研究。
本文介绍了一种新的少样本学习框架“时序对齐模块(TAM)”,该框架通过利用视频的时序信息进行视频分类。在真实数据集上,该模型的表现优异,显著提高了少样本视频分类的效果。
本文介绍了针对图像和视频分类的对抗性攻击方法,包括黑盒视频识别攻击、关键帧选择策略和三维对抗性标志攻击。同时提出了增强鲁棒性的防御方法,展示了LogoStyleFool框架的优势。此外,还介绍了局部自适应对抗色彩攻击和基于局部风格转换的黑盒视频攻击方法。
本文介绍了自我监督学习(SSL)在视频相似度学习、视频分类和医学图像分析中的应用。研究表明,SSL方法能够有效利用无标签数据,减少对标注数据的需求,并在多个任务中实现先进性能,尤其是在内窥镜视频分析和乳腺癌检测中表现突出。
本文探讨了多种基于卷积神经网络(CNN)的3D视频处理方法,如4D卷积、伪3D残差网络和动态扩张卷积。这些方法在视频分类、特征学习和对象分割等任务中表现优于传统的2D和3D CNN,具有更高的准确性和计算效率。
通过对开放词汇视频进行无序多标签分类及语义引导的研究,提出了一种利用预训练视觉语言模型来解决视频理解问题的方法,结合时序建模模块和创新的细调技术,实现了在多个基准数据集上极好的开放词汇分类性能。
TikTok更新了地点页面,增加了“食品饮料”、“酒店”和“购物”等视频分类,用户可以查看特定地点相关的视频,并通过Apple Maps获取附近商家的信息。这一变化提升了TikTok在推荐餐厅和旅行信息方面的吸引力,尤其是在年轻用户中。
本文提出多种在线学习算法,针对视频分类和异常检测问题,显著提升了分类速度和准确性。研究涉及实时视频分析、行为模型构建及自动驾驶物体检测,展示了算法在效率和适应性方面的优势。
本文介绍了一种高效的视频模型,结合自我关注和 S4 层的优点,显著提升了视频分类性能,速度快且内存占用少。通过长期特征库和高阶交互建模,改善了视频描述生成,取得了领先效果。此外,提出了新型监督学习技术和孪生 LSTM 结构,提升了视频摘要和行人匹配效果,在多个数据集上表现优越。
本文提出了一种新框架用于解决类别增量视频分类(CIVC)任务,能够持续更新新类别并保持旧知识。通过自监督学习和半监督学习方法,提升了视频分类和动作检测的性能,尤其在少量标注样本情况下表现优异。研究还探讨了音频-视觉类增量学习和虚拟类别的应用,显著提高了模型的优化能力和准确性。
本文提出了一种两流协作学习方法用于视频分类,结合空间-时间注意力模型,显著提升特征提取效果。研究还涉及视频摘要、人员重新识别及无监督视频对象分割等技术,实验结果表明该方法在多个基准数据集上优于现有技术,展现出良好的性能和应用前景。
完成下面两步后,将自动完成登录并继续当前操作。