小红花·文摘

本文介绍了多种创新的端对端语音摘要（E2E SSum）模型，包括利用合成语音和音素序列进行训练，集成预训练语言模型以应对数据稀缺，以及使用Q-Former连接音频和文本。实验结果表明，这些方法在How2数据集上显著提升了摘要质量和模型性能。