本研究提出了一种新颖的多模态对比损失训练方法,解决了视频字幕生成中忽视音频信息的问题。实验结果表明,该方法在多个基准数据集上优于现有模型,生成的字幕更为准确。
该研究提出了“diffmotion-v2”模型,利用WavLM预训练模型生成个性化共说手势,简化多模态处理,提取音频信息并学习语音与手势的关系。
完成下面两步后,将自动完成登录并继续当前操作。