本研究提出了一种创新方法,利用大型语言模型提升国际口语翻译研讨会(IWSLT)中的语音翻译与指令跟随任务的性能。通过融合多个自动语音识别系统的输出,采用两步翻译和文档级精炼,显著提高了翻译质量。
本文报告了第21届IWSLT会议的共享任务,涵盖口语翻译的七个科学挑战,包括同步和离线翻译、自动字幕和配音、语音到语音翻译、方言及低资源语言翻译等。共有18个团队参与,提交了26篇系统论文,显示出对口语翻译的日益关注。
本论文报告了第21届IWSLT大会组织的共享任务,涵盖了7个口语翻译中的科学挑战。这些挑战包括实时和离线翻译、自动字幕和配音、语音到语音翻译、方言和低资源语音翻译及印地语翻译等。本研究突显了口语翻译领域越来越高的关注度,吸引了来自行业和学术界的18个团队,提交了26篇系统论文。
本文讨论了多个团队在IWSLT评估中提交的语音翻译系统,包括USTC-NEL、ON-TRAC、UPC等。这些系统采用了HMM、Transformer和注意力机制等不同模型和技术,显著提升了BLEU分数,展示了语音翻译领域的进展与潜力。
本文探讨了大型语言模型(LLMs)在自动语音识别(ASR)系统中的应用,旨在提高转录准确性。研究表明,LLMs能够纠正语音识别中的错误,尤其在医学转录领域表现突出,提升了语义连贯性和准确性,为改进医疗记录的可靠性提供了希望。
该论文介绍了FBK在IWSLT 2023评估活动中的同声翻译和自动字幕轨道研究。通过直接架构优化实时推理和字幕生成,显著降低计算延迟并提高翻译质量。同时,研究探讨了模型训练成本,提出轻量级训练策略以提升翻译准确度。
完成下面两步后,将自动完成登录并继续当前操作。