Myna: Mask-based Contrastive Learning for Music Representation

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本文介绍了米娜,一种自监督音乐表征学习方法,解决了音高敏感性和批量大小限制。米娜结合视觉变换器和新数据增强策略,通过掩盖频谱令牌提升性能,取得了先进的结果。

🎯

关键要点

  • 米娜是一种自监督音乐表征学习方法。

  • 米娜解决了现有方法中对音高敏感性的损失和批量大小的限制。

  • 米娜结合了视觉变换器(ViT)和新的数据增强策略——令牌掩码。

  • 通过掩盖90%的频谱令牌,米娜显著提高了每个GPU的批量大小。

  • 米娜在键检测等任务中提升了性能,最终实现了最先进的结果。

🏷️

标签

➡️

继续阅读