MMIS:室内场景视觉生成与识别的多模态数据集
原文中文,约300字,阅读约需1分钟。发表于: 。通过采集图像、生成文本描述和相应的语音注释,我们介绍了 MMIS 数据集,这是一个用于推动多模态室内场景生成和识别的新数据集。这个数据集包含近 16 万张图片,每张图片都伴随着与之对应的文本描述和该描述的音频记录,为场景生成和识别提供了丰富和多样的信息源。MMIS 涵盖了各类室内空间,捕捉了不同的风格、布局和家具。这个数据集将对图像生成、检索、字幕和分类等多模态表示学习任务的研究有所贡献。
介绍了MMIS数据集,包含近16万张图片,每张图片都有文本描述和音频记录,为场景生成和识别提供了丰富和多样的信息源。MMIS涵盖了各类室内空间,对多模态表示学习任务有贡献。