HyperAI超神经 ·

覆盖近1.5万个物种，谷歌DeepMind发布Perch 2.0，刷新生物声学分类检测SOTA

💡 原文中文，约5400字，阅读约需13分钟。

📝

内容提要

Google DeepMind与Google Research推出的Perch 2.0在物种分类的生物声学研究中取得突破，整合多种数据集，刷新BirdSET和BEANS基准测试记录。该模型利用深度学习技术提高了生物多样性监测的效率与准确性，展现出广泛应用前景。

🎯

🔎

Perch 2.0在生物声学领域的突破主要体现在其全新的数据增强策略和训练目标上。这种创新不仅提升了模型的分类准确性，还扩展了其适用范围，尤其是在非鸟类类群的识别上。通过整合多种数据集，Perch 2.0能够更全面地捕捉生物多样性，为生态监测提供更强大的技术支持。

随着人工智能技术的不断进步，生物声学的研究正朝着更高效和准确的方向发展。Perch 2.0的成功表明，未来的生物声学监测将更加依赖于深度学习和迁移学习等先进技术。这不仅能提高监测效率，还能为保护濒危物种提供更为精准的数据支持，推动生态保护工作的深入开展。

Perch 2.0整合了多个带标签的音频数据集，这为模型的训练提供了丰富的基础。然而，不同数据集之间的物种分类体系差异可能带来一定的挑战。研究团队通过人工映射统一类别名称，确保数据的一致性，这一过程在实际应用中需要持续关注，以避免潜在的标签噪声影响模型性能。

❓

Perch 2.0在物种分类上整合了更多非鸟类类群的训练数据，并采用了全新的数据增强策略与训练目标，刷新了BirdSET和BEANS基准测试记录。

生物声学在生物多样性保护与监测中扮演着关键角色，能够提高监测的效率与准确性。

Perch 2.0通过随机窗口策略和能量峰值策略提升样本有效性，并采用mixup数据增强技术来提高分类准确性。

Perch 2.0的模型架构包括前端、嵌入网络和输出头，协同实现从音频信号到物种识别的完整流程。

Perch 2.0整合了Xeno-Canto、iNaturalist、Tierstimmenarchiv和FSD50K四个带标签音频数据集。

Perch 2.0在BirdSet和BEANS基准测试中表现突出，尤其在ROC-AUC指标上达到了当前最佳。

🏷️