小红花·文摘

本研究提出了一种基于去噪扩散概率模型（DDPM）的房间脉冲响应（RIR）插值方法，旨在估算未测量位置的RIR。该方法在不同麦克风阵列上有效重建缺失的RIR，显著提高插值精度。

DiffusionRIR: Room Impulse Response Interpolation Based on Diffusion Models

BriefGPT - AI 论文速递 ·

AI驱动的麦克风阵列使嘈杂环境中的语音清晰度提高40%

DEV Community ·

本文介绍了一种基于深度学习的多声源定位算法，利用多个麦克风阵列在封闭环境中确定声源的二维坐标。该算法通过编码-解码结构和改进措施，在合成和真实数据测试中优于现有方法。此外，提出了新的无监督学习算法和音频-视觉整合网络，提升了声源定位的准确性和可靠性。

虚拟环境中的声源定位的音频模拟

BriefGPT - AI 论文速递 ·

该文章介绍了一种商用设备上部署的低功耗边缘计算优化的实时因果神经网络活动说话人检测系统。该系统利用麦克风阵列和360度摄像机的数据进行活动说话人检测，并在计算预算耗尽时表现出优雅的降级。与传统的声源角估计方法不同，该系统利用检测到的头部位置学习查询可用的声学数据。作者在一个现实的会议数据集上训练和评估了该算法。

解决背景噪音和失真挑战，提高音频指纹识别精确性

BriefGPT - AI 论文速递 ·

该文章介绍了一种商用设备上部署的低功耗边缘计算优化的实时因果神经网络活动说话人检测系统。该系统利用麦克风阵列和360度摄像机的数据进行活动说话人检测，并在计算预算耗尽时表现出优雅的降级。与传统的声源角估计方法不同，该系统利用检测到的头部位置学习查询可用的声学数据。该系统在现实的会议数据集上进行了训练和评估，包含具有挑战性的场景。

利用视觉监督进行基于阵列的主动说话人检测和定位

BriefGPT - AI 论文速递 ·

该系统是一个实时的说话人检测系统，利用麦克风阵列和360度摄像机的数据，通过虚拟电影摄影模块进行优化。该系统在计算预算耗尽时表现出优雅的降级，仍能正常运行。与传统的声源角估计方法不同，该系统利用检测到的头部位置学习查询可用的声学数据。该系统在一个现实的会议数据集上进行了训练和评估，包含达到14个与会者的同一会议、语音重叠和其他具有挑战性的场景。

Crowdotic: 使用 Transformer 的非语音音频和差分隐私的医院候诊室占用估计

BriefGPT - AI 论文速递 ·

本研究介绍了一种使用麦克风阵列和360度摄像头生成会议演讲者注释转录的系统。该系统能够处理重叠性语音并使用连续语音分离方法解决该问题。通过融合脸部跟踪和识别、声源定位、演讲者识别及先前演讲者信息的在线音频视觉演讲者日记化方法，提供了一个名为SRD的会议转录框架。实验结果表明，连续语音分离方法相对于波束成形技术可将字词错误率降低16.1%。当有完整的与会者名单时，字词错误率与演讲者归属字词错误率之间的差异仅为1.0%。当50%的与会者对系统不知情时，差异略有增加，为1.6%。

LibriWASN: 面向异步录音设备的会议分离、分辨和识别数据集

BriefGPT - AI 论文速递 ·