本文介绍了一种改进的推理方法,通过在自回归模块中同时预测多个令牌,显著减少语音合成时间,并使用维特比算法优化生成序列。实验结果表明,预测时间缩短4到5倍,语音可懂度没有明显下降,甚至有所提升。
本文重新审视了视频预测中的分层模型,通过先估计语义结构序列,再通过视频到视频的转换将结构转化为像素。通过在汽车驾驶和人类舞蹈等三个数据集上的评估,证明了该方法能够在非常长的时间范围内生成复杂的场景结构和运动,并且取得了比现有方法长几数量级的预测时间。
本文重新审视了视频预测中的分层模型,通过先估计语义结构序列,再通过视频到视频的转换将结构转化为像素。通过在汽车驾驶和人类舞蹈等三个数据集上的评估,证明了我们的方法能够在非常长的时间范围内生成复杂的场景结构和运动,并且取得了比现有方法长几数量级的预测时间。
完成下面两步后,将自动完成登录并继续当前操作。