本研究提出了一种新颖的多模态和多尺度空间环境理解方案M2SE-VTTS,旨在提升视觉文本语音合成中的环境语音生成效果。该方法结合RGB和深度图像信息,利用局部与全局空间知识,实验结果表明其优于现有基线模型。
完成下面两步后,将自动完成登录并继续当前操作。