MMIS:室内场景视觉生成与识别的多模态数据集

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

介绍了MMIS数据集,包含近16万张图片,每张图片都有文本描述和音频记录,为场景生成和识别提供了丰富和多样的信息源。MMIS涵盖了各类室内空间,对多模态表示学习任务有贡献。

🎯

关键要点

  • MMIS数据集包含近16万张图片,提供文本描述和音频记录。
  • 该数据集旨在推动多模态室内场景生成和识别。
  • MMIS涵盖各类室内空间,捕捉不同风格、布局和家具。
  • 数据集对图像生成、检索、字幕和分类等多模态表示学习任务有贡献。
➡️

继续阅读