本文探讨了扩散模型在人脸生成中的偏见来源,包括性别、种族和年龄,并分析了数据集大小对模型偏差的影响。研究发现,扩散模型可能加剧训练数据的偏见,而平衡数据集训练的GAN模型表现出较小的偏差。此外,提出了“Diffusion Inversion”方法,通过合成数据提高训练样本的多样性,增强模型的公平性和可靠性。
本文提出了一种多语言对话生成系统,结合人脸生成和文本到语音技术,能够生成自然语音和同步口型。该系统通过规范空间和多模态运动空间,实现可控面部动作,生成高质量的交谈视频,视觉质量和唇部同步达到先进水平。同时,研究展示了基于文本的个性化面部表情生成方法,具有更高的真实性和自然性。
完成下面两步后,将自动完成登录并继续当前操作。