ArzEn-LLM: 使用 LLM 进行代码切换的埃及阿拉伯语 - 英语翻译和语音识别

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

该研究使用机器翻译和自动语音识别系统,探索了埃及阿拉伯语和英语的代码切换现象,并提供了开发这些系统的方法学。研究实验了Whisper模型在埃及阿拉伯语识别中的应用,并取得了显著提高。自动语音识别系统对于处理代码切换现象至关重要,对于实现无缝交流也很重要。

🎯

关键要点

  • 该研究探索埃及阿拉伯语和英语的代码切换现象。
  • 研究提供了机器翻译和自动语音识别系统的开发方法学。
  • 使用了LLama和Gemma等大规模语言模型。
  • 实验了Whisper模型在埃及阿拉伯语识别中的应用。
  • 详细介绍了数据预处理和训练技术等实验过程。
  • 研究旨在克服有限资源和埃及阿拉伯语方言的挑战。
  • 通过与已有指标的评估,英语翻译提高了56%,阿拉伯语翻译提高了9.3%。
  • 自动语音识别系统能够有效处理代码切换现象至关重要。
  • 这种能力对于商务谈判、文化交流和学术讨论等领域的无缝交流至关重要。
  • 模型和代码可作为开源资源使用。
➡️

继续阅读