ArzEn-LLM: 使用 LLM 进行代码切换的埃及阿拉伯语 - 英语翻译和语音识别
💡
原文中文,约500字,阅读约需2分钟。
📝
内容提要
该研究使用机器翻译和自动语音识别系统,探索了埃及阿拉伯语和英语的代码切换现象,并提供了开发这些系统的方法学。研究实验了Whisper模型在埃及阿拉伯语识别中的应用,并取得了显著提高。自动语音识别系统对于处理代码切换现象至关重要,对于实现无缝交流也很重要。
🎯
关键要点
- 该研究探索埃及阿拉伯语和英语的代码切换现象。
- 研究提供了机器翻译和自动语音识别系统的开发方法学。
- 使用了LLama和Gemma等大规模语言模型。
- 实验了Whisper模型在埃及阿拉伯语识别中的应用。
- 详细介绍了数据预处理和训练技术等实验过程。
- 研究旨在克服有限资源和埃及阿拉伯语方言的挑战。
- 通过与已有指标的评估,英语翻译提高了56%,阿拉伯语翻译提高了9.3%。
- 自动语音识别系统能够有效处理代码切换现象至关重要。
- 这种能力对于商务谈判、文化交流和学术讨论等领域的无缝交流至关重要。
- 模型和代码可作为开源资源使用。
➡️