BriefGPT - AI 论文速递 ·

基于句子的语音摘要：任务、数据集和带有语言模型知识蒸馏的端到端建模

💡 原文中文，约1300字，阅读约需3分钟。

📝

内容提要

本文介绍了多种创新的端对端语音摘要（E2E SSum）模型，包括利用合成语音和音素序列进行训练，集成预训练语言模型以应对数据稀缺，以及使用Q-Former连接音频和文本。实验结果表明，这些方法在How2数据集上显著提升了摘要质量和模型性能。

🎯

❓

E2E SSum 模型的主要创新点包括利用合成语音和音素序列进行训练，以及集成预训练语言模型以应对数据稀缺问题。

通过使用 TTS 系统生成合成语音进行训练和采用 Q-Former 连接音频与文本，可以显著提高 E2E SSum 模型的摘要质量。

实验结果表明，采用新方法的 E2E SSum 模型在 How2 数据集上显著提升了摘要质量和模型性能。

ESSumm 架构是一种基于深度学习的无线束模型，能够直接从语音中生成摘要，提升未转录数据的摘要质量。

知识蒸馏用于提高端到端语音翻译模型的性能，通过从文本翻译模型中转移知识来训练 ST 模型。

Q-Former 用于连接音频和文本，帮助模型更好地处理长篇语音并生成文本摘要。

🏷️