本研究提出了一种基于StyleGAN的面部图像姿势和表情迁移方法。该方法利用两个编码器和映射网络,将源图像的姿势和表情无缝转移到目标身份上,且无需人工标注,具有接近实时的性能。
本研究提出了一种新方法来优化面部图像化妆技术,构建了包含400万个高质量面部图像-文本对的数据集。Face-MakeUp模型在生成一致性和性能方面表现优异,对文本到图像生成领域具有重要影响。
本研究提出了一种通过Kolmogorov-Arnold网络(KAN)重建真实面部图像的新方法,填补了隐私保护面部识别系统的研究空白。实验结果表明,该方法在面部映射和重建方面表现良好。
本文研究了生成模型在面部图像生成中的有效性与不足,提出了审核框架,发现生成面部图像存在忠实度和人口统计不平衡等限制。通过多种模型和方法,提升了面部识别系统的性能和多样性,并提出了新的去偏方法,增强了生成图像的质量和功能。
该研究旨在提升面部图像质量评估(FIQA)技术的性能与稳定性,采用监督质量标签优化方法,结合多种面部识别模型,在多个基准数据集上评估六种最新FIQA方法,取得良好结果。同时,提出了基于去噪扩散概率模型的DifFIQA方法,表现优异。
VoiceCraft是一种先进的神经编解码语言模型,专注于语音编辑和零样本文本到语音合成,生成的语音几乎无法区分。研究还提出了基于面部图像生成自然语音的模型,显著提高了语音质量和自然性。
本文提出了一种面部图像质量评估算法(CR-FIQA),通过预测样本的分类能力来估计质量。该方法在多个面部识别模型上经过实验验证,显示出优越性,旨在提升技术性能与稳定性,适用于真实场景。
本文提出了一种利用深度生成模型和语音输入信号为静止面部图像添加动画的方法。通过多尺度音频视觉同步损失和多尺度自回归生成对抗网络,处理语音和头部以及嘴唇之间的短期和长期关联。实验结果表明,该方法在头部动作质量和多尺度音频视觉同步方面相较于最新技术有显著提高。
该研究提出了一种简单、快速且适用于图像处理的模型,通过卷积神经网络和机器学习方法,在面部图像中侦测瑕疵和皮肤损伤。
本文介绍了一种基于面部图像的零样本文本到语音合成模型(Face-StyleSpeech),通过结合面部编码器和韵律编码器来生成自然语音。实验结果表明该模型在生成面部图像对应的自然语音方面胜过基准模型,甚至对未训练过的面部图像也有效。
该研究提出了一种基于坐标的神经网络来变形和融合面部图像的方法。通过结合经典方法中的能量函数,利用网络的平滑性和灵活性进行训练,实现连续的面部变形和融合。实验结果显示,该方法在面部变形检测方面与传统方法和基于数据的神经技术相竞争,并展示了多样面孔的无缝融合。
本文介绍了一种利用深度生成模型和语音输入信号为静止面部图像添加动画的方法,通过多尺度音频视觉同步损失和多尺度自回归生成对抗网络,提高了头部动作质量和多尺度音频视觉同步。
本文介绍了一种以面部图像控制语音的零样本个性化 Lip2Speech 合成方法,采用变分自编码器对讲话人身份和语言内容进行解藕,实现了对未知说话人的声音特征进行控制。同时,探索了跨模态表示学习以提高面部说话人嵌入的语音控制能力。
本论文介绍了一种结合临床数据集和多模态学习方法的NAFLD诊断系统。通过分析数据集,选择了对NAFLD预测最有贡献的临床元数据。提出的DeepFLD模型使用多模态输入来预测NAFLD,性能优于仅使用元数据的方法。DeepFLD还可以仅使用面部图像实现竞争性的结果,为非侵入性NAFLD诊断铺平了道路。
通过对不同人的面部图像进行对比学习,准确估计年龄,并结合余弦相似度和三元组边距损失突出年龄相关特征。在FG-NET和MORPH-II数据集上取得最先进性能,验证了方法的有效性。
完成下面两步后,将自动完成登录并继续当前操作。