本研究提出了SpikeVideoFormer,一种高效的脉冲驱动视频变换器,采用汉明注意力和线性时间复杂度。该模型在视频分类、人类姿态跟踪和语义分割等任务中表现优越,显著提升了脉冲神经网络的能效和性能。
本研究提出了TenAd方法,以解决深度学习视频分类模型在黑箱对抗攻击中的脆弱性。通过将视频表示为四阶张量,TenAd显著降低了搜索空间和查询次数,提高了攻击成功率和查询效率,生成几乎不可察觉的对抗扰动。
本文研究视频分类的可解释性,提出了一种名为VIBA的方法,旨在解决视频序列中的信息瓶颈问题。该方法应用于深度伪造检测,展示了其生成一致解释的能力,接近人工注释,为视频分类和检测提供了解释性支持。
本研究通过引入美国手语知识图谱(ASLKG),提高了美国手语(ASL)语言模型的可及性和可解释性。结果表明,基于ASLKG训练的模型在手势识别和视频分类任务中表现优异。
本研究提出了“注意力图流”(AM Flow)方法,旨在解决视频分类中的预训练和长时间训练问题。通过引入时间处理单元,提升了动作识别的表现,并显著缩短了训练时间。AM流有效分离了空间与时间处理,取得了先进的结果。
本文提出SparseFormer方法,通过稀疏特征抽样模仿人类视觉识别,使用仅49个标记降低计算成本。实验表明,SparseFormer在ImageNet分类上性能与传统模型相当,且在准确度与吞吐量之间提供更好平衡,易于扩展到视频分类。
本研究推出TikGuard,利用变换器深度学习方法解决儿童内容审核问题。基于TikHarm数据集,准确率达86.7%,显著提升效果,验证了变换器模型在视频分类中的有效性。
本研究解决了事件摄像头在带宽和计算资源受限情况下,如何有效进行事件子采样以提高分类精度的问题。通过分析不同数据集,发现事件数量可以大幅减少,同时保持较高的准确率,并揭示了高子采样率下CNN模型训练的不稳定性与超参数敏感性。该研究的成果将有助于边缘AI应用中优化数据处理效率与准确性之间的平衡。
本研究提出了一种新视角,通过独立估计每帧的值,使用半最优策略将搜索空间从O(T^N)减少到O(T),提升计算效率。实验证明,该策略在各种数据集和模型架构上能稳定高效地接近最优性能。
音频-视觉表示学习是一种开发类似于人类感知系统的方法,利用声音和视觉信息之间的相关性。AV-SUPERB基准在5个音频-视觉任务的7个数据集上进行通用评估,发现现有模型无法泛化到所有任务,需要改进通用模型性能。通过中间任务微调和使用AudioSet进行音频事件分类可以改进表示。提供了评估代码和模型提交平台,鼓励进一步研究音频-视觉学习。
该研究提出了一种名为双向语义一致性约束的方法,用于改善弱监督下的视频分类及定位发现问题。该方法通过时间相关增强和语义一致性约束来区分正样本动作和co-scene动作,取得了较好的性能。
通过对开放词汇视频进行无序多标签分类及语义引导的研究,提出了一种利用预训练视觉语言模型来解决视频理解问题的方法,结合时序建模模块和创新的细调技术,实现了在多个基准数据集上极好的开放词汇分类性能。
本研究提出了一种基于Transformer模型的视频分类方法,通过提取时空标记并进行编码来处理长序列。利用预训练的图像模型和规范化模型,在较小的数据集上进行训练,并在多个视频分类基准测试中取得了最先进的结果。发布了代码以促进进一步的研究。
该研究提出了一种新的视频分类和定位方法,使用弱监督学习从视频级标签中定位对象,并通过使用伪标签进行训练来提高定位准确性。实验结果表明,该方法在YouTube-Objects无约束视频数据集上取得了最佳分类和定位的性能表现。
本文提出了一种新的语义引导的多级对比方案以及邻域一致性感知单元(SMC-NCA),用于提取半监督动作分割的强帧级表示。该方法在三个基准测试中的编辑距离和准确度上表现优于其他最先进的方法,分别提升了17.8%和12.6%。此外,在仅有5%标记视频的情况下,该方法在分割性能方面也取得了显著的改进,并在帕金森病小鼠行为数据集上展示了有效性。
该研究提出了一个利用多模态经直肠超声视频进行前列腺癌分类的框架。通过两个3D ResNet-50模型从B模式图像和剪切波弹性成像图像中提取特征,并使用自适应空间融合模块聚集两种模态的特征。在内部数据集上评估表明,该框架在识别前列腺癌方面表现良好,AUC为0.84。此外,该框架生成的视觉类激活映射图像可为前列腺癌的定位提供有价值的指导。
通过人机交互系统的更直接参与,使用一种新的框架 Video Annotator(VA)对视频分类数据集进行注释、管理和迭代,提高模型开发过程的效率、可用性和有效性,实现高质量模型的高效创建。
该研究通过简化模型对五种不同编码器生成的深度伪造视频进行分类,性能达到最新水平,计算资源利用更优化。实验结果表明,该方法相较于基线模型提升了4个百分点,计算资源需求更低。
该文介绍了一种基于文本描述的方法,利用大型语言模型和多模态文本描述来生成捕捉多模态视频信息的详细文本描述。评估结果表明,该方法在视频理解任务中取得了成功,为多模态分类提供了一个新的研究方向。
该文介绍了一种新的视频超分辨率模型,能够恢复高分辨率内容而不引入压缩引起的伪影。该模型包括三个模块,能在常用基准数据集和超分辨压缩视频方面达到最先进的性能。
完成下面两步后,将自动完成登录并继续当前操作。