小红花·文摘

EgoSonics是一种基于无声自我中心视频生成音频的方法，可以在虚拟现实、辅助技术等领域应用。通过条件音频合成和SyncroNet和ControlNet的结构，解决了现有工作的局限性。评估表明，该模型在音频质量和同步评估方面优于现有工作，并提高了视频摘要的应用。