BriefGPT - AI 论文速递 ·

家中的声音：用于声音事件检测的无语音住宅音频数据集

模型在声音检测方面的准确率约为92%。

💡 原文中文，约1600字，阅读约需4分钟。

📝

内容提要

本研究提出了一种基于双模态循环神经网络的音视频系统，用于在嘈杂环境中进行语音活动检测，实验结果显示其检测效果优于传统深度神经网络，F1评分达到92.7%。此外，研究还探讨了机器学习在儿童虐待检测和声音事件识别等领域的应用，展示了新数据集和模型的有效性。

🎯

❓

双模态循环神经网络能够从原始数据中直接学习音频和视觉特征，提高在嘈杂环境下的鲁棒性，F1评分达到92.7%。

通过对儿童声音进行分类和识别，结合视频图像分类，实时发送警报，从而提高儿童虐待检测的准确性。

FSD50K数据集旨在为声音事件识别领域提供基准数据集，包含超过51k个手动标记的音频片段。

模型在声音检测方面的准确率约为92%。

声音数据集来自儿童保育机构，包含哭泣声、笑声、尖叫声和背景噪音。

实验结果显示，该方法比传统深度神经网络的语音检测系统提高了1.2%。

🏷️