通过不变性和冗余减少理解语音表示的自监督学习
原文中文,约400字,阅读约需1分钟。发表于: 。本研究探讨了不同形式的 Barlow Twins(BT)目标函数对语音数据下游任务性能的影响,提出了带有归一化潜变量的 Modified Barlow Twins(MBT)以实现尺度不变性,并在说话人识别、性别识别和关键词检测任务中进行了评估,结果表明 MBT 相对于原始 BT...
本研究探讨了不同形式的Barlow Twins(BT)目标函数对语音数据下游任务性能的影响。提出了带有归一化潜变量的Modified Barlow Twins(MBT)以实现尺度不变性,并在说话人识别、性别识别和关键词检测任务中进行了评估。结果表明MBT相对于原始BT提高了表示泛化能力,尤其是在目标数据有限的微调过程中。这强调了设计鼓励不变性和可转移表示的目标函数的重要性。研究揭示了如何定制BT学习目标以产生适应新的下游任务的语音表示,是发展可重复使用的自监督语音表示的重要一步。