Myna: Mask-based Contrastive Learning for Music Representation
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本文介绍了米娜,一种自监督音乐表征学习方法,解决了音高敏感性和批量大小限制。米娜结合视觉变换器和新数据增强策略,通过掩盖频谱令牌提升性能,取得了先进的结果。
🎯
关键要点
-
米娜是一种自监督音乐表征学习方法。
-
米娜解决了现有方法中对音高敏感性的损失和批量大小的限制。
-
米娜结合了视觉变换器(ViT)和新的数据增强策略——令牌掩码。
-
通过掩盖90%的频谱令牌,米娜显著提高了每个GPU的批量大小。
-
米娜在键检测等任务中提升了性能,最终实现了最先进的结果。
🏷️