LaSe-E2V:面向语言引导的语义感知事件到视频重建
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
研究者提出了LaSe-E2V框架,通过语言导向的途径和条件扩散模型实现高质量事件到视频重构。实验结果显示该方法在三个数据集上表现优越。
🎯
关键要点
- 研究者提出了LaSe-E2V框架,结合语言导向的途径和条件扩散模型。
- 该框架实现了高质量的事件到视频重构,具有语义感知能力。
- 使用事件引导的时空关注模块,确保重构的时空一致性和空间连贯性。
- 通过事件感知的掩膜损失和噪声初始化战略增强重构效果。
- 在三个数据集上的实验结果显示该方法表现优越。
➡️