该研究提出了一种名为VersionSeek的隐蔽软件版本识别方法,基于功能性变更分析软件更新的功能差异,设计探测请求以提高识别准确率。实验结果表明,该方法在识别率和数据包发送量上均优于传统技术,成功识别了240,020个软件实例,揭示了用户面临的安全威胁。
本文提出了一种针对E2E自动语音识别模型在新电影标题识别中不足的音素纠正方法。该方法通过音素搜索生成替代选项,并结合ASR模型的识别结果,显著提高了识别准确率,错误率降低了4.4%至7.6%。
本研究探讨了文本数据中的说话者识别问题,提出了一种基于大型预训练模型的模糊指纹方法。通过整合说话者特定令牌和上下文建模,显著提高了识别准确率,并在多个数据集上表现优越,为文本基础的说话者识别提供了重要见解。
本研究提出了一种名为MaxGlaViT的轻量级视觉转换器模型,用于青光眼的早期诊断。该模型通过优化网络架构和引入注意机制,实现了92.03%的识别准确率,显示出在青光眼早期检测中的巨大潜力。
研究显示,常用ChatGPT的人能更有效识别AI生成文本,准确率达76%。人类专家在识别上优于自动化工具,因其对语言模式和内容一致性有更强的直觉。
本研究提出了一种隐私保护人脸识别(PPFR)方法,解决了黑箱模型推广和对抗学习的影响。通过扰动全局特征和增强局部特征,识别准确率达到94.21%,在隐私保护和抗重构能力上优于现有方法。
本研究提出了均衡损失(EQL v2)、选择性物体对比学习(SoCo)和针对性监督对比学习(TSC)等新方法,以解决长尾目标检测中的不平衡问题。实验结果表明,这些方法在多个数据集上显著提升了模型的识别准确率和泛化能力,尤其在稀有类别上表现突出。
本研究提出了两种新方法,从桌面录音中提取用户行为,分别为直接帧基和差分帧基。结果表明,直接帧基方法的识别准确率达到70%至80%,并可通过机器人流程自动化重放,显示出良好的应用潜力。
Prompt Engineering是为AI对话设计提示词,以确保AI准确理解用户需求。该过程包括明确目标、设计提示词、优化测试和处理意外情况。随着AI技术的发展,Prompt Engineering逐渐成熟,广泛应用于各领域,如京东物流通过不同提示词提高商品件型判断的准确率。
本研究提出了一种新方法,通过交叉相似性注意力机制和四分支循环框架,有效提取面部表情识别中的特征,提升识别准确率,超越现有先进技术。
本研究探讨了视频生成过程中的先验知识是否适用于视频识别,并提出了GenRec,这是一种将生成与识别联合优化的统一框架。GenRec通过随机帧条件过程实现了显著的表现,在信息有限的情况下,其识别准确率达到75.8%和87.2%,展示了其在视频生成和识别任务中的潜在影响力。
该研究提出了一种新的混合网络结构“全局-局部视觉Mamba”,能够同时学习图像中的局部相关性和全局依赖性。实验结果表明该方法在多个公共数据库上实现了最先进的识别准确率,具有重要的应用价值。
本研究提出了一个包含18,000张图像的新BdSL数据集,解决了孟加拉手语识别中的数据集匮乏问题。通过混合卷积神经网络模型,该研究在该数据集上实现了97.92%的识别准确率,为孟加拉手语的研究提供了重要的基础与突破。
华中科技大学研究团队与其他机构合作,开发了一种甲骨文破译优化模型(OBSD),用于解决甲骨文识别问题。该模型利用甲骨文的不可见类别生成现代汉字图像,具有较高的准确性。该研究为古文字识别任务提供了新颖的方法,取得了最高的识别准确率。
本论文介绍了一种基于预训练掩码语言模型的条件联合建模框架,用于提高医学领域 ASR 系统的识别准确率。实验结果显示,该模型相对于基线模型在字典和会话样式语料库上有5%的绝对改进和10%的ASR输出优化。
支付宝医疗大模型亮相,识别准确率达90%以上,具备多模态、安全性、专业性能力。支付宝推出医疗可信一体机+可信云解决方案,落地三大应用领域:医疗、金融、生活。支付宝智能助理首次亮相,可完成办事、问诊、打车等服务。智能认知决策技术与平台获得卓越人工智能奖。
该研究提出了一种轻量级字符表示的方法,用于编码精细的发音特征并执行情境偏倚。实验结果显示,该方法相对于基线模型在不同情境偏见列表大小上提高了4.62%-9.26%的识别准确率。在大规模数据集上,相对于基准模型,识别准确率提高了7.91%。在稀有单词和尾部话语的测试集上,相对识别准确率的改善更为显著,分别达到了36.80%和23.40%。
该研究提出了一种轻量级字符表示的方法,用于编码精细的发音特征并执行情境偏倚。实验结果显示,该方法在不同情境偏见列表大小上相对于基线模型提高了4.62%-9.26%的识别准确率。在大规模数据集上,相对于基准模型,识别准确率提高了7.91%。在稀有单词和尾部话语的测试集上,相对识别准确率的改善分别达到了36.80%和23.40%。
研究人员提出了一种新的ROI视觉转换方法(ROI-ViT),用于解决识别有害生物时的复杂背景和尺度问题。实验结果表明,该方法在具有复杂背景和小尺寸的新数据集上表现更好,保持了高的识别准确率。
本文介绍了 Whisper-MCE 模型在 minor language 和 mixed language 语音识别方面的卓越表现,提出了一种新的评估机制以解决在这些语境下对其有效性进行评估时的挑战。该模型比基线模型 whisper-large-v2 更准确捕捉原始音频内容,实现更高的识别准确率和更快的识别速度。在 mixed language 识别任务中,该模型超越了其他现有模型。
完成下面两步后,将自动完成登录并继续当前操作。