跨模态音乐处理的带语义注释的 Mosa 数据集

💡 原文中文,约1900字,阅读约需5分钟。
📝

内容提要

本文介绍了多个用于音频和视觉分析的数据集,涵盖古典音乐表演、声音活动检测、动作捕捉和音乐信息检索等领域。研究旨在提升音乐和语言的理解与检索能力,推动相关领域的发展。

🎯

关键要点

  • 介绍了一个用于音频视觉分析的古典音乐表演数据集,包含44个多乐器作品的音频、视频和乐谱。
  • 报告展示了用于声音活动检测和音乐/语音区分的新语料库,涵盖多种音乐类型和语言。
  • 构建了最大的动作捕捉数据集BEAT,探究人体动作和语义相关性。
  • 提出了KIT运动-语言数据集,包含3911个运动和6278个自然语言注释,促进运动与语言的语义表示研究。
  • 在音乐信息检索领域,使用多模态深度学习技术匹配文本与音乐,提出了WikiMuTe数据集。
  • 建立了Multimodal Aspect-Category Sentiment Analysis (MACSA) 数据集,包含21K个文本-图像对,提供细粒度注释。
  • 提出了Crossmodal-3600数据集,包含3600张图片,应用于多语言图片字幕模型的选择。
  • 提供了M^3AV数据集,支持多种音视频识别和理解任务,展示其多样性和挑战性。
  • 引入了MUSES数据集,解决自动驾驶汽车中语义感知的问题,包含多传感器的同步记录。
  • 提出了Multimodal Opinion-level Sentiment Intensity dataset(MOSI),用于在线视频情感和主观分析。

延伸问答

Mosa数据集的主要用途是什么?

Mosa数据集主要用于音频和视觉分析,特别是在音乐信息检索任务的开发和评估中。

KIT运动-语言数据集包含哪些内容?

KIT运动-语言数据集包含3911个运动和6278个自然语言注释,旨在促进运动与语言的语义表示研究。

WikiMuTe数据集的特点是什么?

WikiMuTe数据集包含音乐丰富的语义描述,数据源于维基百科的音乐作品文章,支持文本与音乐的跨模态检索。

MUSES数据集解决了什么问题?

MUSES数据集解决了自动驾驶汽车中语义感知的问题,整合了多种传感器的数据以应对恶劣条件下的语义注释。

Multimodal Aspect-Category Sentiment Analysis (MACSA) 数据集的创新点是什么?

MACSA数据集首次使用aspect category作为枢轴,提供文本和视觉内容的细粒度注释,促进跨模态研究。

M^3AV数据集的目的是什么?

M^3AV数据集旨在支持多种音视频识别和理解任务,展示其多样性和挑战性。

➡️

继续阅读