BriefGPT - AI 论文速递 ·

跨模态音乐处理的带语义注释的 Mosa 数据集

💡 原文中文，约1900字，阅读约需5分钟。

📝

内容提要

本文介绍了多个用于音频和视觉分析的数据集，涵盖古典音乐表演、声音活动检测、动作捕捉和音乐信息检索等领域。研究旨在提升音乐和语言的理解与检索能力，推动相关领域的发展。

🎯

介绍了一个用于音频视觉分析的古典音乐表演数据集，包含44个多乐器作品的音频、视频和乐谱。
报告展示了用于声音活动检测和音乐/语音区分的新语料库，涵盖多种音乐类型和语言。
构建了最大的动作捕捉数据集BEAT，探究人体动作和语义相关性。
提出了KIT运动-语言数据集，包含3911个运动和6278个自然语言注释，促进运动与语言的语义表示研究。
在音乐信息检索领域，使用多模态深度学习技术匹配文本与音乐，提出了WikiMuTe数据集。
建立了Multimodal Aspect-Category Sentiment Analysis (MACSA) 数据集，包含21K个文本-图像对，提供细粒度注释。
提出了Crossmodal-3600数据集，包含3600张图片，应用于多语言图片字幕模型的选择。
提供了M^3AV数据集，支持多种音视频识别和理解任务，展示其多样性和挑战性。
引入了MUSES数据集，解决自动驾驶汽车中语义感知的问题，包含多传感器的同步记录。
提出了Multimodal Opinion-level Sentiment Intensity dataset（MOSI），用于在线视频情感和主观分析。

❓

Mosa数据集主要用于音频和视觉分析，特别是在音乐信息检索任务的开发和评估中。

KIT运动-语言数据集包含3911个运动和6278个自然语言注释，旨在促进运动与语言的语义表示研究。

WikiMuTe数据集包含音乐丰富的语义描述，数据源于维基百科的音乐作品文章，支持文本与音乐的跨模态检索。

MUSES数据集解决了自动驾驶汽车中语义感知的问题，整合了多种传感器的数据以应对恶劣条件下的语义注释。

MACSA数据集首次使用aspect category作为枢轴，提供文本和视觉内容的细粒度注释，促进跨模态研究。

M^3AV数据集旨在支持多种音视频识别和理解任务，展示其多样性和挑战性。

🏷️