多视图聚类在跨模态表示学习和数据驱动决策方面具有重要影响。自监督学习在多视图聚类方法中逐渐占主导地位。该论文探讨了自监督多视图聚类的原因、优势以及常见数据集、数据问题、表示学习方法和自监督学习方法的内部联系和分类,并介绍了各类方法的机制和应用示例。提出了一些待进一步研究和发展的开放性问题。
本文介绍了一种以面部图像控制语音的零样本个性化 Lip2Speech 合成方法,采用变分自编码器对讲话人身份和语言内容进行解藕,实现了对未知说话人的声音特征进行控制。同时,探索了跨模态表示学习以提高面部说话人嵌入的语音控制能力。
完成下面两步后,将自动完成登录并继续当前操作。