小红花·文摘 - 小红花技术领袖俱乐部

本研究提出了Speech-FT策略，通过模型合并解决微调语音表示模型时的泛化能力下降问题，提供了一种高效的解决方案。

Speech-FT: A Fine-Tuning Strategy for Speech Representation Models that Balances Generalization Ability

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法，将自监督语音表示与大语言模型结合，以提升多模态处理和语音理解，显示出在保留语音语义内容方面的优势。

基于大语言模型的语音查询文本翻译：SparQLe

BriefGPT - AI 论文速递 ·

本研究提出了一种语音表示净化与监督增强框架（SRPSE），有效消除音色和节奏等无关因素对语音转文本翻译的负面影响，显著提升翻译效果，尤其在无文本转录条件下表现优异。

Representation Purification for End-to-End Speech Translation

BriefGPT - AI 论文速递 ·

JOOCI框架旨在优化现有语音表示技术在内容与表达方式上的不足，通过独立建模这两类信息，显著提升了语音表征效果，并在SUPERB基准测试中表现优于其他模型。

JOOCI: A Framework for Learning Comprehensive Speech Representations

BriefGPT - AI 论文速递 ·

本研究提出了Sylber模型，解决了神经语言表示缺乏结构的问题。该模型通过自监督学习生成具有清晰音节结构的语音表示，从而提高了语音理解效率，并展示了重建可理解语音的潜力。

Sylber: Syllabic Embedding Representation from Raw Audio

BriefGPT - AI 论文速递 ·