小红花·文摘 - 小红花技术领袖俱乐部

NVIDIA 发布 Audex (Nemotron-Labs-Audex-30B-A3B)：一种统一的音频-文本大语言模型

NVIDIA 发布 Audex (Nemotron-Labs-Audex-30B-A3B)：一种统一的音频-文本大语言模型

实时互动网 ·

本研究提出CLASP（对比语言-语音预训练），旨在解决音频-文本信息检索中的多语言多模态表示问题。该方法结合语音和文本数据，构建了15个类别的数据集，设立了新基准，显示出优于传统语音识别方法的潜力。

CLASP：多语言多模态信息检索的对比语言-语音预训练

BriefGPT - AI 论文速递 ·

该研究提出了一种音频-文本交叉模态表示提取器，利用注意力机制提升智能语音识别（ASR）性能。通过上下文注入和数据增强技术，显著改善了情感语音的识别效果，并降低了词错误率（WER）。研究还探讨了自然语音识别噪音对信息检索的影响，并提出了解决方案以提高口头语言理解的鲁棒性。

量化文本可预测性在自动语音识别中的作用

BriefGPT - AI 论文速递 ·