本研究针对人类贩运问题,提出了MATCHED数据集,包含27,619条文本和55,115张图像。研究表明,多模态特征能有效提升贩运者识别和验证的性能,强调了其在打击人类贩运中的应用价值。
本文探讨了多种推荐系统的改进方法,包括自我上下文关注模块、多视角伪标记、零-shot推荐和多模态特征利用。这些方法在视频学习和冷启动推荐中显著提高了用户偏好捕捉和推荐准确性。实验结果表明,提出的技术在多个数据集上表现优越,推动了推荐系统的发展。
本文介绍了新颖的RIS架构ReMamber及其在图像融合中的应用,结合Mamba块和多模态特征,提升了图像重建和目标检测性能。提出的FusionMamba和MambaDFuse模型在多模态图像融合任务中表现优异,展现了Mamba在跨模态融合中的潜力。此外,研究探讨了Mamba与Transformer的结合,提出MambaVision模型,在多个数据集上取得了最先进的性能。
本研究提出了一种基于多模态特征和Transformer的框架,用于情感行为分析和表情识别,结合数据平衡和增强方法以提升性能。实验结果显示,该方法在多个竞赛中表现优异,尤其在不平衡数据集上取得了先进成果。此外,研究还探讨了面部情感分析的伦理和隐私问题,并提出了新模型和数据集以提高情感识别能力。
本文探讨了虚假新闻检测的多种方法和模型,如FAKEDETECTOR、MDFEND和ARG,强调了数据集的重要性,包括Fakeddit和FineFake。研究表明,结合多模态特征和领域知识能显著提高检测性能,并提出了新的算法库FaKnow,以支持研究人员。
本文提出了多种新型深度学习框架,用于癌症患者的生存预测和肿瘤分割。这些框架结合病理图像、基因表达和临床数据,通过多模态特征融合和注意力机制,提高了预测的准确性和可靠性,展示了在不同数据集上的优越性能,为个性化治疗提供支持。
本文探讨了一种结合图像和文本数据的学习算法,通过对比语言图像预训练提取特征,研究不同的分类头和融合方法,最终在Kaggle竞赛中获得超过90%的F_1分数。研究表明,自适应信息组合在少样本学习中优于传统方法,提升了多模态特征的语义可辨别性。
本文介绍了一种新的自我监督学习方法,旨在提升医学图像视觉问答(VQA)的性能。通过利用医学图像标题数据集,研究提出了多模态特征表示学习框架,显著提高了多个医学 VQA 数据集上的准确度。此外,引入了多对多局部关系建模和遮蔽对比学习策略,以更有效地利用有限的医学图像文本数据,取得了优越的分类和分割结果。
本研究提出了一种基于多模态特征和Transformer的框架,用于情感行为分析和表情识别,结合数据平衡和增强方法以提升模型性能。实验结果表明,该方法在情感分类和面部表情识别任务中显著提高了准确性,预计将推动情感计算和深度学习的发展。
该研究提出了多种基于LiDAR的神经网络模型,如FPS-Net和S3CNet,旨在优化点云的语义分割。通过多模态特征融合和稀疏卷积技术,这些模型在SemanticKITTI和nuScenes数据集上取得了显著进展,提升了分割精度和实时性能。实验结果显示,所提方法在相关基准测试中表现优异。
本文介绍了多种新颖的点云补全网络,包括双通道模态融合网络(DMF-Net)、基于提示的P2M2-Net和旋转不变完成网络(RICNet)。这些网络通过融合图像、文本和多模态特征,显著提升了点云的恢复和补全效果,实验结果表明其在多个数据集上优于现有方法,具有更好的鲁棒性和生成质量。
本文介绍了一种用于自动检测抑郁症的多模态特征提取和决策融合方法。通过支持向量机和神经网络,音频和视频特征的分类性能显著提升。研究还提出了基于多级注意力网络的抑郁症预测模型,结合社交媒体分析和深度学习技术,实现了高准确性和可解释性的检测效果。
本文介绍了多种知识图谱补全和推理模型,如SimKGC、MoMoK和KGCL,利用对比学习和多模态特征提升性能。实验结果表明,这些模型在多个基准数据集上表现优异,尤其在复杂关系和噪声环境下。
本研究介绍了PhilEO Bench评估框架,用于测试遥感基础模型,包括建筑密度、道路分割和土地覆盖分类等任务。通过实验评估不同模型,探讨了基础模型在遥感任务中的适用性及其与实际任务的一致性,强调了多模态特征在地理人工智能中的重要性,并提出了隐私和安全风险的控制策略。
本文提出了一种名为P2M2-Net的点云补全框架,利用Transformer模型实现多模态特征融合,生成多样化的形状补全结果。实验表明,该方法在PartNet-Prompt数据集上进行部分感知点云补全时表现优越。
该研究开发了多模式药物电子健康记录问答数据集,旨在改善电子健康记录中的问答系统。提出了新的文本到SQL数据集和多模态特征嵌入生成模型,结合结构化与非结构化数据,以提高医疗任务的预测性能。同时,研究探讨了如何利用EHR数据预测未来诊断,并提出NECHO框架以解决数据异质性问题。
本文研究了音视频问答(AVQA)任务,提出了目标感知联合时空基础网络和渐进式时空感知网络等新方法,利用多模态特征和知识蒸馏提升问答性能。实验结果显示,这些方法在MUSIC-AVQA数据集上表现优越,推动了AVQA领域的发展。
该研究提出了多种手语翻译和识别的新方法,如关键点规范化、随机帧选择和多模态特征融合,显著提高了翻译准确率和识别性能。研究通过先进模型和数据集展示了手语翻译和识别的有效性,推动了手语技术的发展。
本文探讨了基于人口特征的学习参与度预测模型,提出了多种技术和模型,包括利用视频分析学生情感和行为状态的方法。研究表明,人工智能和多模态特征学习能有效提升学习者参与度的测量和推荐系统的性能,实验结果显示这些方法在准确性和实用性上优于传统模型。
本文提出了一种名为 USTrack 的单阶段 Transformer RGB-T 跟踪网络,通过自注意机制融合多模态特征,提升目标与背景的区分度。实验结果显示,该方法在多个 RGB-T 跟踪基准上表现优异,推理速度达到 84.2FPS,尤其在 VTUAV 数据集上表现突出。
完成下面两步后,将自动完成登录并继续当前操作。