自监督学习模型在低资源ASR上表现出惊人性能,尤其在Quechua语和其他土著语言中展示了大规模模型的潜在泛化能力。
本研究评估了四个预训练的自监督学习模型和两个迁移学习模型在治疗性视网膜病分类中的表现。结果显示自监督学习模型在平衡和不平衡的训练情景下表现出卓越性能,其中 MoCo-v2 方案的自监督学习模型在不平衡情景下表现出色。
本文提出了一种新的度量标准,通过研究自监督学习模型在跨语言环境中提取的特征,预测特征表示的质量。结果表明,对比损失有助于更有效的跨语言特征提取。
本文介绍了一种在移动设备上部署的自监督学习模型,用于学习通用音频表示。该模型利用时间上下文来估计音频片段之间的时间间隔,并重建时间频谱图切片。研究表明,该模型在多个下游任务中可重复使用,性能接近全监督模型。
本文介绍了一种在移动设备上部署的自监督学习模型,用于学习通用音频表示。该模型利用频谱图域中的时间上下文,通过估计音频片段之间的时间间隔或重建时间频谱图切片来学习。研究表明,这种模型可以在多个下游任务中重复使用,并且与全监督模型的性能接近。
本研究提出了一种新的训练3D手势估计模型的框架,使用自监督学习模型(TASSN)从仅具有2D信息的视频中学习。通过强制时间一致性约束,TASSN可以学习从视频中推断3D手势和网格的技能,并且实验证明了该模型的3D估计精度与目前最先进的基于3D注释的模型在同等级别上,强调了时间一致性在限制3D预测模型方面的优点。
该研究介绍了针对南美洲土著语言Quechua的ASR语料库,并评估了自监督学习模型在Quechua语和其他6种土著语言上的效果,结果表明自监督学习模型表现出了惊人的性能。
本文提出了一种新方法,通过自监督学习模型形成注意机制,从目标话语中提取风格信息并将其转移到源语音内容,实现目标说话者的说话风格再现。实验证明该方法与扩散式生成模型结合能在任何语音转换任务中实现更好的说话者相似性,并且对于长话语的计算复杂度增加的抑制效果较好。
本文研究了自监督学习模型的学习动态,提出了施加权重正交性约束的目标函数,并证明了无限宽度逼近的自监督学习模型与监督模型的神经切向核逼近存在偏差。数值实验证明了理论发现的正确性,并为对比和非对比自监督学习提供了框架。
完成下面两步后,将自动完成登录并继续当前操作。