小红花·文摘 - 小红花技术领袖俱乐部

StereoFoley：基于视频的对象感知立体音频生成

StereoFoley：基于视频的对象感知立体音频生成

Apple Machine Learning Research ·

近期，多模态大型语言模型在视觉与语言任务上表现出色，但在识别和计数图像实体方面有不足。为提升准确性，提出使用VCoder作为感知工具，通过分割或深度图增强能力。利用COCO图像和视觉模型创建COST数据集评估表现。实验表明，VCoder在对象感知上优于其他模型。数据集和代码已公开发布。

PUMA：通过多粒度视觉生成赋能统一的多模态大语言模型

BriefGPT - AI 论文速递 ·

该文提出了一种新的图像编辑范式，称为对象感知的反转和重组（OIR），以实现基于对象的精细编辑。实验证明，该方法在编辑对象形状、颜色、材料、类别等方面取得了卓越的性能，尤其是在多对象编辑场景中。

面向对象的图像编辑的反演与重组

BriefGPT - AI 论文速递 ·