MOSS-Audio是一个开源音频理解模型,集成了语音转录、情感分析和环境声音理解等功能。其模块化设计包括音频编码器和大型语言模型,采用DeepStack跨层特征注入和时间感知表示技术,显著提升了音频处理能力。MOSS-Audio-8B-Thinking在音频理解基准测试中表现优异,准确率达到71.08%。
本文介绍了一种名为SoundVista的新方法,通过视觉-声学绑定从新视角合成环境声音。该方法不依赖声源细节的先验知识,适应不同房间布局和麦克风配置,在多种环境中表现出显著改进。
完成下面两步后,将自动完成登录并继续当前操作。