EgoSonics:为无声自我中心视频生成同步音频
原文中文,约300字,阅读约需1分钟。发表于: 。EgoSonics 是一种基于无声自我中心视频而生成语义明确且同步的音频轨道的方法,可以在虚拟现实、辅助技术或增强现有数据集等领域开拓新的应用。通过利用条件音频合成的潜在扩散模型的优势,EgoSonics 解决了现有工作在捕捉自我中心视频中广泛的音频频率范围方面的局限性,并通过 SyncroNet 和 ControlNet...
EgoSonics是一种基于无声自我中心视频生成音频的方法,可以在虚拟现实、辅助技术等领域应用。通过条件音频合成和SyncroNet和ControlNet的结构,解决了现有工作的局限性。评估表明,该模型在音频质量和同步评估方面优于现有工作,并提高了视频摘要的应用。