小红花·文摘

本研究提出了一种新型损失函数，Target-Robust损失，旨在提升语音识别系统在嘈杂环境下的表现，显著提高RNN-T模型的鲁棒性，恢复超过70%的识别质量。

Loss Function for Noisy Target Speech Recognition Based on RNN-Transducer

BriefGPT - AI 论文速递 ·

AI驱动的麦克风阵列使嘈杂环境中的语音清晰度提高40%

DEV Community ·

Shokz OpenFit 2是对原版几乎完美的升级

The Verge ·

本研究探讨了结合音频和文本改善对话策略的方法，解决了传统系统因依赖文本转录而导致的信息缺失问题。实验结果表明，音频嵌入的对话策略在嘈杂环境中比仅基于文本的策略提升了9.8%的用户请求评分，强调了音频信息的重要性。

Using Audio to Improve Dialogue Strategies

BriefGPT - AI 论文速递 ·

本研究提出了通用降噪框架D4AM，用于改善嘈杂环境下声学模型性能。该框架通过反向梯度调整语音增强模型，考虑回归目标作为辅助损失，直接估计权重系数，避免额外训练成本。实验结果显示，相对于嘈杂输入，该框架在Google ASR API上相对WER降低24.65%，是首个实现回归和分类目标有效组合的通用预处理器。

D4AM：用于下游声学模型的通用去噪框架

BriefGPT - AI 论文速递 ·