BriefGPT - AI 论文速递 ·

通过 LLM 代理实现端到端同时语音翻译的人类水平

💡 原文中文，约1700字，阅读约需4分钟。

📝

内容提要

本文探讨了同声传译中的自动语音翻译系统，比较了人类译员与机器翻译的差异，并提出利用大型语言模型（LLMs）进行实时翻译的新方法。研究表明，该方法在翻译质量和延迟方面具有优势，为多语言交流的民主化提供了新思路。同时，介绍了多语言语音文本翻译模型的开发及其性能提升。

🎯

❓

大型语言模型（LLMs）通过预测发言者的话语并在树状结构中扩展多个可能性，实现实时翻译，展示了灵活性和适应性。

SimulST模型使用混合数据进行训练，结合同声传译数据和离线双语数据，并使用风格标签指示输出风格。

通过对Simultaneous Machine Translation（SiMT）模型进行fine-tuning，研究在减少延迟的同时保持翻译质量。

该模型结合了预训练语言模型HuBERT和mBART，并通过两种解码策略进行训练，最终采用本地一致性策略。

主要挑战包括处理长时间语音流的复杂性、满足实时要求的困难、翻译质量与延迟的平衡以及缺乏注释数据。

研究提供了对SimulST研究的见解，讨论了挑战和解决方案，为未来的探索提出了有希望的方向。

🏷️