本研究提出了一种目标信号约束分解模块(TSFM),以提高远程生理信号提取的准确性。结合TSFM的双分支3D-CNN架构(MMRPhys),在光电容积脉搏和呼吸信号的多任务估计中表现优越,适用于实时应用,建立了新的鲁棒性基准。
本研究评估了利用互联网视频自动检测牛跛行的可行性,提出了一种基于深度学习的3D CNN视频分析模型,达到了90%的分类准确率,简化了传统方法并提高了鲁棒性。
本研究针对通过面部视频进行的远程生理信号测量(rPPG)中所面临的性能平衡问题,提出了一种新颖的端到端框架VidFormer。该框架整合了3DCNN和Transformer模型,并通过引入时空注意机制和信息交换模块,实现了对输入数据的局部和全局特征的高效提取。实验结果表明,VidFormer在五个公开数据集上的表现优于当前最先进的方法,具有重要的应用潜力。
自回归大语言模型在视频生成中有潜力,但目前仅限短视频。Loong模型通过短到长训练和损失重加权,解决长视频生成中的问题。它使用3D CNN架构,将视频压缩为离散token序列,结合文本生成长视频。适用于低分辨率视频,未来可用于视觉艺术和娱乐,但需注意虚假内容生成。
本研究提出了一种基于3D-CNN的图像压缩方法,通过建模隐层表示的熵,优化重构误差与信息熵的平衡。引入自回归和层次先验,显著提升了压缩效果,并探讨了并行上下文模型和Transformer-CNN混合块,进一步提高了解码速度和压缩性能。
本研究提出了一种基于3D CNN的自动分割网络,用于胶质瘤的MRI数据分析。通过训练神经网络,该方法在肿瘤分割和分类方面表现出高准确率,Dice分数达到61%。同时,采用循环残差U-Net模型对三种脑肿瘤进行分割,平均交并比为0.8665,显示出深度学习在脑肿瘤分割中的优势。
该论文提出了一种使用结构线索来增强基于图像的位置识别的方法,通过将2D卷积神经网络与从结构运动点云导出的体素网格作为输入的3D CNN相结合来完成。最终得到了最佳性能。在牛津机器人车数据集上,该方法的表现优于仅从一个输入模态性提取的描述符,包括最先进的基于图像的描述符。在低描述符维度下,该方法的表现超过最先进的描述符高达90%。
该研究提出了一种基于ResNet的3D CNN框架,结合注意力机制,用于阿尔茨海默病的诊断。在ADNI数据库的792个受试者上进行了消融实验验证,实现了高达91.18%的诊断准确率,超过了一些最先进的方法。
本研究提出了一种基于ResNet的3D CNN框架,结合注意力机制用于阿尔茨海默病的诊断。在ADNI数据库的792个受试者上验证,实现了89.71%和91.18%的诊断准确率,超过了一些最先进的方法。
完成下面两步后,将自动完成登录并继续当前操作。