本研究针对耳朵识别中重叠补丁关注不足的问题,采用重叠补丁选择策略,显著提升了识别性能,尤其在EarVN1.0数据集中提高了10%。
本研究提出了一种新框架,通过引入对象节点来解决现有骨架动作识别方法忽视人类交互对象信息的问题,利用空间时间可变图卷积网络(ST-VGCN)对物体节点进行建模,从而提升识别性能。
本研究针对人类贩运问题,提出了MATCHED数据集,包含27,619条文本和55,115张图像。研究表明,多模态特征能有效提升贩运者识别和验证的性能,强调了其在打击人类贩运中的应用价值。
本研究提出了一种名为“量化提示”(P4Q)的方法,旨在减少大规模视觉语言模型对训练样本和计算资源的需求。P4Q通过轻量架构和对比损失监督,提升了低比特量化模型的识别性能,缩小了图像和文本特征之间的差距。实验结果显示,P4Q性能优于现有技术,具有实际应用潜力。
本研究提出了一种改进的差分架构搜索算法(Relax DARTS),用于眼动识别。该算法通过独立训练架构参数,提高了搜索和训练效率,并在多个公共数据库上显著提升了识别性能,展示了其在多特征时间分类任务中的适应性。
本文研究了预训练视觉语言模型在医学图像中的应用,强调医学提示语设计的重要性。通过自动生成医学提示和多尺度特征集成,显著提升了模型的识别性能和鲁棒性。此外,提出了对抗提示调优和混合视觉提示等新方法,增强了模型在复杂病理诊断中的表现,减少了假阴性预测。
本文研究了长尾分布对计算机视觉的影响,提出了双边分支网络、权重均衡技术和对比学习等方法来改善长尾识别性能。研究表明,通过调整分类器和采用新颖的学习策略,可以有效解决数据不平衡问题,多个实验验证了这些方法在长尾数据集上的优越性。
本研究探讨了美国手语中手指拼写的自动识别,采用深度神经网络和新模型,达到了82.7%的字符识别准确率。通过引入新数据集和多任务训练方法,显著提升了识别性能,并提出了有效的手语翻译方案。
本文介绍了说话人识别的研究进展,包括基于深度学习的模型、漏洞评估、偏差问题及新数据集的发布。研究表明,采用先进模型和大数据训练显著提高识别性能,并提出新方法准确识别对话中的演讲者姓名,达到80.3%的高精度。
本文评估了合成数据在自动语音识别(ASR)训练中的有效性,探讨了不同ASR架构对合成数据的敏感性。研究表明,合成样本与真实语音的差异对提高识别性能至关重要,并提出了一种结合合成和真实数据的方法,显著降低了错误率,提升了ASR系统的准确性。
骨架动作识别在数据不平衡方面存在挑战。本文提出了一种新颖的平衡表示学习方法,通过空间-时间动作探索策略和分离的动作感知学习计划,解决长尾动作识别问题。实验结果表明,该方法在多个数据集上显著提升了识别性能和泛化能力。
本文提出了一种基于编码器-解码器网络的手写数学表达式识别方法,结合语法规则和双向上下文信息,显著提高了识别性能。实验结果表明,该方法在多个数据集上优于现有技术,并创建了包含10万个手写表达式的公开数据集。
该研究提出了多种手语翻译和识别的新方法,如关键点规范化、随机帧选择和多模态特征融合,显著提高了翻译准确率和识别性能。研究通过先进模型和数据集展示了手语翻译和识别的有效性,推动了手语技术的发展。
本文介绍了多种人物再识别(Re-ID)方法,包括基于双高斯变分自编码器、Transformer框架和张量特征表示的系统。这些方法通过结合不同技术和特征提取,显著提高了识别性能。
本文提出了一种双注意力的全卷积连体网络(DASNet),通过捕获远距离依赖关系,提高模型的识别性能。实验结果表明,该方法在F1值上分别实现最大2.1%和3.6%的提升,具有鲁棒性。
该研究提出了一种简单而强大的方法来识别场景文本,使用基于全局特征引导注意力的二维卷积神经网络和序列解码器。相比循环神经网络,训练时仅使用单词级别的注释,能够在前向和后向传递中获得1.3x至9.4x不等的加速。在评估的正常和不规则的场景文本基准数据集上实现了最先进或竞争性的识别性能。
本文提出了一种双注意力的全卷积连体网络(DASNet),通过捕获远距离依赖关系,提高模型的识别性能。该方法通过惩罚注意力和增加注意力解决了变化检测的样本不均衡问题。实验结果表明,与其他方法相比,该方法在F1值上分别提升了2.1%和3.6%,具有鲁棒性。
该研究提出了一种基于多模态注意力的音视频语音识别方法,使用了最先进的Seq2seq架构,相对于单独的音频模态获得了2%到36%的提高。该方法在不同信噪比下,无论是清洁还是嘈杂的条件下,都能获得更好的识别性能,并可推广到其他多模态任务中。
完成下面两步后,将自动完成登录并继续当前操作。