本研究提出Vevo框架,解决了现有语音模仿技术对标注数据的依赖及音色与风格解耦的难题。Vevo通过内容-风格建模和声学建模的两阶段过程,实现了可控的零-shot语音模仿,能够在无需特定风格语料的情况下成功进行口音和情感转换。
谷歌将Vevo和Imagen 3引入YouTube创作者的Dream Screen,帮助他们生成令人兴奋的背景视频。创作者可以选择符合自己喜好的风格、构图或美学。Vevo将根据用户的创意生成高质量的6秒背景视频。明年初,创作者还可以使用Dream Screen生成6秒独立视频剪辑。
完成下面两步后,将自动完成登录并继续当前操作。