使用 Transformer 网络进行自动蝙蝠呼叫分类
原文中文,约400字,阅读约需1分钟。发表于: 。通过合成多物种录音并将多种蝙蝠呼叫合并到一个录音中,我们提出了一种变压器架构用于多标签分类,该方法在实时分类场景中具有潜在应用,单一物种准确率达到 88.92%(F1 分数 84.23%),多物种宏 F1 分数达到 74.40%。相比于三个其他工具在独立和公开可用的数据集 ChiroVox 上,我们的模型单一物种分类准确率至少提高 25.82%,多物种分类宏 F1 分数至少提高 6.9%。
该研究结合自我监督和深度主动学习,利用Transformer模型进行鸟类声音监测,生成高质量的鸟类声音表示,减少对人工专家 extensively labeled 数据集的依赖。通过Huggingface Datasets整理一套全面的任务,旨在加速鸟类声学研究的进展并为更有效的保护策略作出贡献。