本研究提出了一种基于StyleGAN的面部图像姿势和表情迁移方法。该方法利用两个编码器和映射网络,将源图像的姿势和表情无缝转移到目标身份上,且无需人工标注,具有接近实时的性能。
本研究提出了一种新方法来优化面部图像化妆技术,构建了包含400万个高质量面部图像-文本对的数据集。Face-MakeUp模型在生成一致性和性能方面表现优异,对文本到图像生成领域具有重要影响。
本研究提出了一种通过Kolmogorov-Arnold网络(KAN)重建真实面部图像的新方法,填补了隐私保护面部识别系统的研究空白。实验结果表明,该方法在面部映射和重建方面表现良好。
该论文介绍了一种结合临床数据集和多模态学习方法的NAFLD诊断系统。系统利用体格检查、实验室和成像研究、问卷调查和面部图像等数据集,选择了对NAFLD预测最有贡献的临床元数据,并通过多模态输入预测NAFLD。该系统在性能上优于仅使用元数据的方法,甚至可以仅使用面部图像实现竞争性结果。这为非侵入性NAFLD诊断提供了更强大和简化的方法。
本文提出了一种方法,通过单个面部图像和仅含音频的输入生成富有表现力的谈话头像。该方法能够合成艺术绘画、素描、2D卡通角色、日本漫画和风格化漫画等图像,并通过评估和用户研究证明其生成头像的质量显着更高。
本文提出了一种利用深度生成模型和语音输入信号为静止面部图像添加动画的方法。通过多尺度音频视觉同步损失和多尺度自回归生成对抗网络,处理语音和头部以及嘴唇之间的短期和长期关联。实验结果表明,该方法在头部动作质量和多尺度音频视觉同步方面相较于最新技术有显著提高。
该研究提出了一种简单、快速且适用于图像处理的模型,通过卷积神经网络和机器学习方法,在面部图像中侦测瑕疵和皮肤损伤。
本文介绍了一种基于面部图像的零样本文本到语音合成模型(Face-StyleSpeech),通过结合面部编码器和韵律编码器来生成自然语音。实验结果表明该模型在生成面部图像对应的自然语音方面胜过基准模型,甚至对未训练过的面部图像也有效。
该研究提出了一种基于坐标的神经网络来变形和融合面部图像的方法。通过结合经典方法中的能量函数,利用网络的平滑性和灵活性进行训练,实现连续的面部变形和融合。实验结果显示,该方法在面部变形检测方面与传统方法和基于数据的神经技术相竞争,并展示了多样面孔的无缝融合。
本文介绍了一种利用深度生成模型和语音输入信号为静止面部图像添加动画的方法,通过多尺度音频视觉同步损失和多尺度自回归生成对抗网络,提高了头部动作质量和多尺度音频视觉同步。
本文介绍了一种以面部图像控制语音的零样本个性化 Lip2Speech 合成方法,采用变分自编码器对讲话人身份和语言内容进行解藕,实现了对未知说话人的声音特征进行控制。同时,探索了跨模态表示学习以提高面部说话人嵌入的语音控制能力。
本论文介绍了一种结合临床数据集和多模态学习方法的NAFLD诊断系统。通过分析数据集,选择了对NAFLD预测最有贡献的临床元数据。提出的DeepFLD模型使用多模态输入来预测NAFLD,性能优于仅使用元数据的方法。DeepFLD还可以仅使用面部图像实现竞争性的结果,为非侵入性NAFLD诊断铺平了道路。
通过对不同人的面部图像进行对比学习,准确估计年龄,并结合余弦相似度和三元组边距损失突出年龄相关特征。在FG-NET和MORPH-II数据集上取得最先进性能,验证了方法的有效性。
完成下面两步后,将自动完成登录并继续当前操作。