小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
多声源定位新方法:结合α稳定模型与神经网络的SHAMaNS

声源定位(SSL)在增强听觉和自动驾驶等领域应用广泛。日本理化学研究所提出的新型混合技术SHAMaNS,结合α稳定模型与神经网络,成功解决了稀疏测量和噪声鲁棒性问题。实验结果显示,SHAMaNS在多声源场景中表现优异,适应能力强,未来计划扩展至三维定位。

多声源定位新方法:结合α稳定模型与神经网络的SHAMaNS

实时互动网
实时互动网 · 2025-06-26T02:37:02Z

本文研究了声音场特性与声源及听者周围环境的几何和空间属性之间的关系。提出的方向意识神经场利用Ambisonic格式的环境冲激响应,显著提高了对不同房间适应性的能力,可能对声场模拟产生重要影响。

Direction-Aware Neural Acoustic Fields for Few-Shot Interpolation of Environmental Impulse Responses

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-19T00:00:00Z

港科大与北邮团队在ICLR 2025上展示了一项创新技术,能够通过文本控制声源方向生成多通道音频,显著提升空间音频生成的控制能力,具有广泛的应用前景。

ICLR 2025 Spotlight:音频生成新突破!港科北邮团队首次通过文本控制声源方向生成音频

量子位
量子位 · 2025-02-17T01:03:00Z

本研究提出了一种综合流程,用于处理睡眠呼吸暂停检测中的缺失或嘈杂模态。该模型在不同数据子集和噪声水平下表现优异,尤其在高噪声或缺失情况下,AUROC超过0.9。

通过谐波/打击声源分离和卷积神经网络改善有限数据集下的打鼾检测

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-31T00:00:00Z

我们推出了Real Acoustic Fields(RAF)数据集,包含真实声场数据、多视图图像配对的房间脉冲响应数据,以及声音发射器和听者的6DoF姿态跟踪数据。该数据集用于评估和增强新视角声学合成方法,结合视觉数据与神经声学场模型,展示了模拟-真实方法的有效性。RAF是音频和音频-视觉神经声学研究的理想资源。

SonicSim: 一种可定制的移动声源环境下语音处理的仿真平台

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-02T00:00:00Z

本研究提出了一种新的音频-视觉学习框架,解决了声源定位中的误报问题,并提高了性能。该框架适用于音频-视觉事件分类和物体检测任务。

通过消除误报增强声源定位

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-29T00:00:00Z

本研究通过训练多模态遮罩自编码器模型,解决了分布式临时麦克风阵列的3D声源定位问题。算法在室内环境中的模拟和真实音乐与语音录音测试中表现出与传统及其他学习基方法相竞争的性能。

wav2pos: 使用遮罩自编码器的声源定位

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-28T00:00:00Z

我们提出了一种利用Tri-modal joint embedding模型的T-VSL框架,通过文本模态作为中间特征引导,在多源混合中分离语义音视源对应关系。该方法在训练期间通过预测混合中声音实体的类来引导音视源对应关系的分离,并展现了在测试期间对未见过的类别具有有希望的零-shot迁移能力。实验证明该方法相对于最先进方法有显著性能提升。

视听对齐:通过音视频对齐来实现先进的声源定位

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-18T00:00:00Z

本研究提出了一种名为Cross Pseudo-Labeling(XPL)的新方法,用于半监督AVSL。XPL通过交互学习和交叉精炼机制避免了偏见积累,并结合软伪标签和课程数据选择模块以实现稳定训练。实验证明XPL在性能上优于现有方法,并减轻了确认偏见。

SemiPL: 面向事件声源定位的半监督方法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-30T00:00:00Z

该研究提出了一种音频-视觉空间整合网络,利用音频和视觉模态的空间线索来模仿人类在检测声音对象时的行为。通过递归注意网络,可以形成更准确的注意区域。实验结果显示该方法在声源定位方面优于现有方法。

虚拟环境中的声源定位的音频模拟

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-02T00:00:00Z

介绍了多模态声音混合编辑器'LCE',可根据用户文本指令修改声源。系统通过聊天界面和语言模型解释,同时编辑多个声源,提高信号质量。实验证明在不同声源场景中表现稳健。

倾听、交谈与编辑:文本引导下的音景修改以提升听觉体验

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-06T00:00:00Z

本文研究了基于注意力的空间滤波技术,包括线性和非线性方法,以提高多通道语音增强算法在实际场景中的性能。实验结果表明,这些方法在静态和动态声音环境中均表现出鲁棒性,并优于传统的空间滤波方法。

基于注意力的移动声源场景下的多通道语音增强

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-12-17T00:00:00Z

该文介绍了一个跨模态对齐任务,以促进音频和视觉模态之间的交互学习,实现了声源定位和跨模态检索的高性能和语义理解。

声源定位是关于跨模态对齐的全部内容

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-09-19T00:00:00Z

本文提出了使用注意力特征融合的通道重新校准方法进行DeepFake Audio检测,并改进了Resnet模型的输入特征嵌入方式。经过训练,模型在Fake or Real数据集上获得了95%的测试准确度,并在使用不同的生成模型生成样本后适应该框架后,达到了90%的平均准确度。

应对声源分离中的特征不平衡

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-09-11T00:00:00Z

本文介绍了一种双输入神经网络(DI-NNs)方法,用于信号处理应用中的元数据和高维信号建模。通过训练和评估DI-NNs在不同情景下的性能,并与其他替代架构以及最小二乘(LS)方法和卷积递归神经网络(CRNN)进行比较。结果表明,在真实录音测试数据集中,DI-NNs的定位误差比LS方法低五倍,比CRNN低两倍。

用于位置声源定位的双输入神经网络

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-08-08T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码