小红花·文摘

该研究介绍了一种名为TransVIP的新模型框架，通过级联方式利用多样的数据集，在维持发言者的声音特征和等时性的同时实现端到端推理，适用于视频配音等场景，并在法英语言对上的实验中表现出优于当前最先进的语音到语音翻译模型的性能。