小红花·文摘

本研究提出了一种新颖的多模态和多尺度空间环境理解方案M2SE-VTTS，旨在提升视觉文本语音合成中的环境语音生成效果。该方法结合RGB和深度图像信息，利用局部与全局空间知识，实验结果表明其优于现有基线模型。