小红花·文摘

本文介绍了一种基于音频驱动的三维面部动画模型，采用交叉模态学习和多语种增强技术，提升了面部表情的同步性和生成质量。该模型具有良好的泛化能力，能够捕捉个体的讲话风格，适用于游戏和虚拟现实等领域。实验结果表明，其在唇语同步和动画质量方面优于现有方法。

BriefGPT - AI 论文速递 ·

本文介绍了一种自监督的SCORER网络，旨在生成高质量的图像描述。该方法通过交叉模态学习和对比策略，显著提升了描述的稳定性和鲁棒性。实验结果显示，该模型在多个数据集上优于现有模型，且计算成本保持不变。

BriefGPT - AI 论文速递 ·