小红花·文摘

语音增强中的自监督学习：从无配对训练到基础模型先验

实时互动网 ·

我在Sonos音响上更改了3个设置，瞬间提升了音频表现

ZDNET ·

通过预训练的生成音频编码器和声码器实现高效且适应性强的语音增强

实时互动网 ·

本研究综述了深度学习在复杂语音谱图分析中的应用，介绍了复杂谱图特征、深度神经网络架构，以及训练策略和损失函数，展示了在相位恢复、语音增强和分离等方面的显著进展。

A Review of Deep Learning Research on Complex Speech Spectrograms

BriefGPT - AI 论文速递 ·

本研究提出了一种新型双路径框架BSP-MPNet，结合自监督特征与幅度-相位信息，针对现有语音增强技术的不足，在多种噪声条件下表现优于现有方法，为自监督语音增强研究提供了新方向。

Amplitude-Phase Dual-Path Speech Enhancement Network Based on Self-Supervised Embeddings and Perceptual Contrast Stretching

BriefGPT - AI 论文速递 ·

本研究提出了一种低功耗流式语音增强加速器，通过模型压缩和硬件优化，模型大小减少93.9%，实时推理功耗仅为8.08毫瓦，显著提升了效率和可用性。

A Low-Power Streaming Speech Enhancement Accelerator for Edge Devices

BriefGPT - AI 论文速递 ·

本研究提出了一种跨模态知识迁移学习框架（CMKT），有效整合语言知识与语音增强模型，实验结果表明其在多种条件下表现优异。

语言知识迁移学习在语音增强中的应用

BriefGPT - AI 论文速递 ·

人工智能突破使语音录音在任何背景噪声中清晰可辨

DEV Community ·

本研究提出了一种结合双向门控递归单元（BGRU）与Transformer模型的新方法，以改善嘈杂环境中的语音增强效果。实验结果表明，该方法在降噪和语音质量提升方面显著优于传统技术。

Enhancing Speech Quality through the Integration of BGRU and Transformer Architectures

BriefGPT - AI 论文速递 ·

AI驱动的麦克风阵列使嘈杂环境中的语音清晰度提高40%

DEV Community ·

本研究提出了名为AnyEnhance的统一生成模型，专注于语音增强的多任务处理。通过提示指导和自我批评机制，该模型显著提高了语音和歌声的增强效果，超越了现有技术。

AnyEnhance：一种具有提示指导和自我批评的统一生成模型用于语音增强

BriefGPT - AI 论文速递 ·

本研究提出了一项新挑战，利用零样本文本转语音系统增强个性化语音数据，以解决收集高质量个性化数据的隐私和技术难题。研究者将评估零样本TTS生成的数据质量对个性化语音增强模型性能的影响。

Generative Data Augmentation Challenge: Zero-Shot Speech Synthesis for Personalized Speech Enhancement

BriefGPT - AI 论文速递 ·

xLSTM-SENet：重新定义单通道语音增强

实时互动网 ·

本研究提出Kolmogorov-Arnold网络（KAN）用于高保真语音增强，实验结果表明其在提升语音质量方面表现优异，且对模型规模和运算量影响较小，显示出KAN的潜力。

KAN在语音增强中的潜力研究

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法，通过同步视频中的上下文信息来改善语音增强，尤其在遮挡或远摄环境下表现优越。实验结果表明，该方法在多个数据集上超越了现有技术。

Scene-Aware Audio-Visual Speech Enhancement with Selective State Space Model

BriefGPT - AI 论文速递 ·

本研究提出了SlowFast框架，以解决深度学习语音增强在低延迟下的计算挑战。通过动态调制状态空间模型，计算成本降低70%，算法延迟达到60微秒。

Modulating State Space Model with SlowFast Framework for Compute-Efficient Ultra Low-Latency Speech Enhancement

BriefGPT - AI 论文速递 ·

本文介绍了DiffWave在音频生成中的应用，包括高保真音频生成、快速语音合成和语音增强。研究提出了LinDiff和FastVoiceGrad等多种扩散模型，以提高推理速度和音频质量，展示了在文本转语音和语音转换任务中的优势。

扩散还是混淆：一个扩散深度伪造语音数据集

BriefGPT - AI 论文速递 ·

本文介绍了一种基于CTC的全神经网络语音识别器设计方法，评估结果显示其性能优于以往系统。提出的新型层和相位重建策略显著提升了语音增强和合成效率。同时，研究了音频反欺骗技术和新型数据增强方法PhasePerturbation，均有效提高了系统性能。

阶段性和先验意识的神经语音相位预测

BriefGPT - AI 论文速递 ·

本文研究了Wave-U-Net在语音增强中的应用，发现其在时域建模中能有效提升多个性能指标。提出了Deep Complex U-Net、SDFCN、PoCoNet和FullSubNet+等新型网络结构和方法，均在不同数据集上表现优异。同时，探讨了语音分离与增强的最新进展及其在自动语音识别中的应用潜力。

RelUNet：用于多通道语音增强的相对通道融合 U-Net

BriefGPT - AI 论文速递 ·

本文介绍了DiffWave及其在音频生成中的应用，包括高保真度语音合成和音频修复。DiffWave通过扩散模型实现高效的波形生成，优于传统模型。研究还提出了双边去噪扩散模型和Ex-Diff，显著提升了语音增强效果。

基于潜在扩散模型的高分辨率语音恢复

BriefGPT - AI 论文速递 ·