本研究提出了一种自监督方法,能够从无姿势的互联网照片生成3D一致性视频。该方法利用视频一致性和多视角照片的可变性,训练可扩展的3D感知视频模型,无需3D注释。实验结果表明,该方法在几何和外观一致性方面优于现有基线,适用于需要摄像机控制的应用。
本文提出了一种针对图数据集的预训练策略和自监督方法,以提高图神经网络(GNN)在分子性质预测和蛋白质功能预测中的表现。研究表明,这些方法在多个蛋白质相关任务中取得了最先进的性能,显著提升了泛化能力和鲁棒性。
本文介绍了一种简单的自监督方法,用于放大视频中微小的运动,并通过操作视频来实现光流的缩放。通过训练模型估计生成视频的光流并惩罚其与给定放大因子的偏差程度,避免了使用合成放大数据集的需求。通过评估视觉质量和定量度量,展示了方法的有效性。
本文介绍了基于视频的面部情感分析的重要性,并提出了一种自监督方法,通过在大规模无标签的面部视频上进行预训练。实验证明该方法在情感相关表示方面优于先前的方法。
自监督方法在成像逆问题中证明有效,为基于学习的方法铺平了道路。本文提出了一种新的自监督方法,利用图像分布近似尺度不变的事实,可应用于高频信息丢失的逆问题。实验证明该方法优于其他自监督方法,与完全监督学习相当。
自监督方法在成像逆问题中证明了有效性,为基于学习的方法铺平了道路。本文提出了一种新的自监督方法,利用图像分布近似尺度不变的事实,可应用于高频信息丢失的逆问题。实验证明该方法优于其他自监督方法,并与完全监督学习相当。
本文介绍了使用Conformer架构扩展自监督方法的多语言预训练模型,研究发现预训练的语音模型在编码语言的区分信息方面表现最佳。通过微调预训练的Conformer模型,可以实现类似于语言识别最先进系统的结果,模型参数比当前系统少了五倍,并通过NVIDIA NeMo工具包开源。
本文介绍了一种自监督方法,用于放大视频中微小的运动,并展示了在监督和无监督光流方法中的有效性。该方法通过操作视频,使其新的光流按比例缩放,并通过训练模型来估计生成视频的光流并惩罚其与给定放大因子的偏差。
该文介绍了一种新的学习方法MIL-NCE,用于从讲述视频中学习视频表示,无需手动注释。该方法在多个数据集上进行了评估,证明其优于已发表的自监督方法和多个全监督基准线的表现。
本文提出了一种新的度量方法“模型可分离性”用于评估模型分离数据的能力。研究表明,自监督方法训练的模型在分离性方面比监督方法更有效。在深度伪造数据集上,自监督模型提供了最佳结果,有助于开发更有效的深度伪造检测模型。
该研究提出了一种简化的自监督方法,结合可区分的运动特征学习模块,用于识别视频中的事件边界检测问题。实验证明该方法在两个数据集上的可行性和有效性,并展示了无需显式预文本任务的学习运动特征的简单自监督方法。
本文使用Conformer架构扩展了多语言预训练模型的自监督方法,发现预训练的语音模型在编码语言的区分信息方面表现最佳。嵌入对于分类未见过的语言和不同的声学环境具有鲁棒性,无需额外训练。微调预训练的Conformer模型后,实现了类似于语言识别最先进系统的结果。模型参数比当前系统少了五倍,并通过NVIDIA NeMo工具包开源了该模型。
该文介绍了一种适用于数字病理学领域的自监督方法,利用同构网络从全切片图像中提取特征来创建稳健和紧凑的图像描述符。实验结果表明,该方法在图像检索方面表现更好。
DINO-CXR是一种自监督方法,通过对胸部X射线进行分类预训练,证明了其在肺炎和COVID-19检测方面的有效性,并在准确性方面胜过了最先进的方法,同时少使用了标记数据。
完成下面两步后,将自动完成登录并继续当前操作。