EgoSonics是一种基于无声自我中心视频生成音频的方法,可以在虚拟现实、辅助技术等领域应用。通过条件音频合成和SyncroNet和ControlNet的结构,解决了现有工作的局限性。评估表明,该模型在音频质量和同步评估方面优于现有工作,并提高了视频摘要的应用。
完成下面两步后,将自动完成登录并继续当前操作。