本文介绍了StereoFoley框架,该框架能够从视频生成语义对齐、时间同步和空间准确的立体音频。该模型克服了现有数据集的限制,通过合成数据生成管道实现对象感知的立体声音。研究还引入了立体对象感知度量,并通过人类听觉研究验证了其有效性,建立了视频到音频生成的新基准。
近期,多模态大型语言模型在视觉与语言任务上表现出色,但在识别和计数图像实体方面有不足。为提升准确性,提出使用VCoder作为感知工具,通过分割或深度图增强能力。利用COCO图像和视觉模型创建COST数据集评估表现。实验表明,VCoder在对象感知上优于其他模型。数据集和代码已公开发布。
该文提出了一种新的图像编辑范式,称为对象感知的反转和重组(OIR),以实现基于对象的精细编辑。实验证明,该方法在编辑对象形状、颜色、材料、类别等方面取得了卓越的性能,尤其是在多对象编辑场景中。
完成下面两步后,将自动完成登录并继续当前操作。