本研究提出了一种目标信号约束分解模块(TSFM),以提高远程生理信号提取的准确性。结合TSFM的双分支3D-CNN架构(MMRPhys),在光电容积脉搏和呼吸信号的多任务估计中表现优越,适用于实时应用,建立了新的鲁棒性基准。
本研究评估了利用互联网视频自动检测牛跛行的可行性,提出了一种基于深度学习的3D CNN视频分析模型,达到了90%的分类准确率,简化了传统方法并提高了鲁棒性。
本研究针对通过面部视频进行的远程生理信号测量(rPPG)中所面临的性能平衡问题,提出了一种新颖的端到端框架VidFormer。该框架整合了3DCNN和Transformer模型,并通过引入时空注意机制和信息交换模块,实现了对输入数据的局部和全局特征的高效提取。实验结果表明,VidFormer在五个公开数据集上的表现优于当前最先进的方法,具有重要的应用潜力。
自回归大语言模型在视频生成中有潜力,但目前仅限短视频。Loong模型通过短到长训练和损失重加权,解决长视频生成中的问题。它使用3D CNN架构,将视频压缩为离散token序列,结合文本生成长视频。适用于低分辨率视频,未来可用于视觉艺术和娱乐,但需注意虚假内容生成。
通过调查设计选择和相互作用,发现使用本地点特征的Transformer主干比3D CNN更鲁棒。在测试时进行锚点大小调整是关键。源域数据增强允许模型推广到低分辨率传感器。用干净的天气数据直接训练比用恶劣天气数据训练更能提高对恶劣天气的鲁棒性。提供了开发更鲁棒的3D目标检测方法的实际指导。
该论文提出了一种使用结构线索来增强基于图像的位置识别的方法,通过将2D卷积神经网络与从结构运动点云导出的体素网格作为输入的3D CNN相结合来完成。最终得到了最佳性能。在牛津机器人车数据集上,该方法的表现优于仅从一个输入模态性提取的描述符,包括最先进的基于图像的描述符。在低描述符维度下,该方法的表现超过最先进的描述符高达90%。
该研究提出了一种基于ResNet的3D CNN框架,结合注意力机制,用于阿尔茨海默病的诊断。在ADNI数据库的792个受试者上进行了消融实验验证,实现了高达91.18%的诊断准确率,超过了一些最先进的方法。
本研究提出了一种基于ResNet的3D CNN框架,结合注意力机制用于阿尔茨海默病的诊断。在ADNI数据库的792个受试者上验证,实现了89.71%和91.18%的诊断准确率,超过了一些最先进的方法。
完成下面两步后,将自动完成登录并继续当前操作。