声源定位(SSL)在增强听觉和自动驾驶等领域应用广泛。日本理化学研究所提出的新型混合技术SHAMaNS,结合α稳定模型与神经网络,成功解决了稀疏测量和噪声鲁棒性问题。实验结果显示,SHAMaNS在多声源场景中表现优异,适应能力强,未来计划扩展至三维定位。
本文研究了声音场特性与声源及听者周围环境的几何和空间属性之间的关系。提出的方向意识神经场利用Ambisonic格式的环境冲激响应,显著提高了对不同房间适应性的能力,可能对声场模拟产生重要影响。
港科大与北邮团队在ICLR 2025上展示了一项创新技术,能够通过文本控制声源方向生成多通道音频,显著提升空间音频生成的控制能力,具有广泛的应用前景。
本研究提出了一种综合流程,用于处理睡眠呼吸暂停检测中的缺失或嘈杂模态。该模型在不同数据子集和噪声水平下表现优异,尤其在高噪声或缺失情况下,AUROC超过0.9。
我们推出了Real Acoustic Fields(RAF)数据集,包含真实声场数据、多视图图像配对的房间脉冲响应数据,以及声音发射器和听者的6DoF姿态跟踪数据。该数据集用于评估和增强新视角声学合成方法,结合视觉数据与神经声学场模型,展示了模拟-真实方法的有效性。RAF是音频和音频-视觉神经声学研究的理想资源。
本研究提出了一种新的音频-视觉学习框架,解决了声源定位中的误报问题,并提高了性能。该框架适用于音频-视觉事件分类和物体检测任务。
本研究通过训练多模态遮罩自编码器模型,解决了分布式临时麦克风阵列的3D声源定位问题。算法在室内环境中的模拟和真实音乐与语音录音测试中表现出与传统及其他学习基方法相竞争的性能。
我们提出了一种利用Tri-modal joint embedding模型的T-VSL框架,通过文本模态作为中间特征引导,在多源混合中分离语义音视源对应关系。该方法在训练期间通过预测混合中声音实体的类来引导音视源对应关系的分离,并展现了在测试期间对未见过的类别具有有希望的零-shot迁移能力。实验证明该方法相对于最先进方法有显著性能提升。
本研究提出了一种名为Cross Pseudo-Labeling(XPL)的新方法,用于半监督AVSL。XPL通过交互学习和交叉精炼机制避免了偏见积累,并结合软伪标签和课程数据选择模块以实现稳定训练。实验证明XPL在性能上优于现有方法,并减轻了确认偏见。
该研究提出了一种音频-视觉空间整合网络,利用音频和视觉模态的空间线索来模仿人类在检测声音对象时的行为。通过递归注意网络,可以形成更准确的注意区域。实验结果显示该方法在声源定位方面优于现有方法。
介绍了多模态声音混合编辑器'LCE',可根据用户文本指令修改声源。系统通过聊天界面和语言模型解释,同时编辑多个声源,提高信号质量。实验证明在不同声源场景中表现稳健。
本文研究了基于注意力的空间滤波技术,包括线性和非线性方法,以提高多通道语音增强算法在实际场景中的性能。实验结果表明,这些方法在静态和动态声音环境中均表现出鲁棒性,并优于传统的空间滤波方法。
该文介绍了一个跨模态对齐任务,以促进音频和视觉模态之间的交互学习,实现了声源定位和跨模态检索的高性能和语义理解。
本文提出了使用注意力特征融合的通道重新校准方法进行DeepFake Audio检测,并改进了Resnet模型的输入特征嵌入方式。经过训练,模型在Fake or Real数据集上获得了95%的测试准确度,并在使用不同的生成模型生成样本后适应该框架后,达到了90%的平均准确度。
本文介绍了一种双输入神经网络(DI-NNs)方法,用于信号处理应用中的元数据和高维信号建模。通过训练和评估DI-NNs在不同情景下的性能,并与其他替代架构以及最小二乘(LS)方法和卷积递归神经网络(CRNN)进行比较。结果表明,在真实录音测试数据集中,DI-NNs的定位误差比LS方法低五倍,比CRNN低两倍。
完成下面两步后,将自动完成登录并继续当前操作。