本研究针对耳朵识别中重叠补丁关注不足的问题,采用重叠补丁选择策略,显著提升了识别性能,尤其在EarVN1.0数据集中提高了10%。
本研究提出了一种新框架,通过引入对象节点来解决现有骨架动作识别方法忽视人类交互对象信息的问题,利用空间时间可变图卷积网络(ST-VGCN)对物体节点进行建模,从而提升识别性能。
本研究针对人类贩运问题,提出了MATCHED数据集,包含27,619条文本和55,115张图像。研究表明,多模态特征能有效提升贩运者识别和验证的性能,强调了其在打击人类贩运中的应用价值。
本研究提出了一种名为“量化提示”(P4Q)的方法,旨在减少大规模视觉语言模型对训练样本和计算资源的需求。P4Q通过轻量架构和对比损失监督,提升了低比特量化模型的识别性能,缩小了图像和文本特征之间的差距。实验结果显示,P4Q性能优于现有技术,具有实际应用潜力。
本研究提出了一种改进的差分架构搜索算法(Relax DARTS),用于眼动识别。该算法通过独立训练架构参数,提高了搜索和训练效率,并在多个公共数据库上显著提升了识别性能,展示了其在多特征时间分类任务中的适应性。
本文研究了长尾分布对计算机视觉的影响,提出了双边分支网络、权重均衡技术和对比学习等方法来改善长尾识别性能。研究表明,通过调整分类器和采用新颖的学习策略,可以有效解决数据不平衡问题,多个实验验证了这些方法在长尾数据集上的优越性。
本文提出了一种双注意力的全卷积连体网络(DASNet),通过捕获远距离依赖关系,提高模型的识别性能。该方法通过惩罚和增加注意力解决变化检测的样本不均衡问题。实验证明,该方法在F1值上有2.1%和3.6%的提升,具有鲁棒性。
本文提出了一种针对任意分辨率的虹膜识别的深度特征提取器,通过自动切换网络实现了分辨率自适应的特征提取,并应用于三个传统神经网络模型,提高了低分辨率下的识别性能。
该研究提出了一种基于多模态注意力的音视频语音识别方法,使用了最先进的Seq2seq架构,相对于单独的音频模态获得了2%到36%的提高。该方法在不同信噪比下,清洁和嘈杂条件下均能获得更好的识别性能,适用于其他多模态任务。
作者设计了一种利用神经网络和IMUs原材料的自动识别运动姿势的系统。研究表明,该系统可以很好地识别已知被试的运动姿势,但不适用于未知被试者,并且不同的运动姿势识别性能存在差异。
这篇文章介绍了一个大规模的音频视觉动作事件数据集(AVMIT),包含57,177个音频视觉视频的标注结果。通过训练和测试6个递归神经网络(RNNs),发现专门使用音频视觉事件进行训练可以显著提高识别性能。这个新标注的AVMIT数据集将成为研究和比较实验的有价值资源。
本文提出了一种双注意力的全卷积连体网络(DASNet),通过捕获远距离依赖关系,提高模型的识别性能。实验结果表明,该方法在F1值上分别实现最大2.1%和3.6%的提升,具有鲁棒性。
该研究提出了一种简单而强大的方法来识别场景文本,使用基于全局特征引导注意力的二维卷积神经网络和序列解码器。相比循环神经网络,训练时仅使用单词级别的注释,能够在前向和后向传递中获得1.3x至9.4x不等的加速。在评估的正常和不规则的场景文本基准数据集上实现了最先进或竞争性的识别性能。
本文提出了一种双注意力的全卷积连体网络(DASNet),通过捕获远距离依赖关系,提高模型的识别性能。该方法通过惩罚注意力和增加注意力解决了变化检测的样本不均衡问题。实验结果表明,与其他方法相比,该方法在F1值上分别提升了2.1%和3.6%,具有鲁棒性。
该研究提出了一种基于多模态注意力的音视频语音识别方法,使用了最先进的Seq2seq架构,相对于单独的音频模态获得了2%到36%的提高。该方法在不同信噪比下,无论是清洁还是嘈杂的条件下,都能获得更好的识别性能,并可推广到其他多模态任务中。
完成下面两步后,将自动完成登录并继续当前操作。