本研究提出了一种创新方法,利用大型语言模型提升国际口语翻译研讨会(IWSLT)中的语音翻译与指令跟随任务的性能。通过融合多个自动语音识别系统的输出,采用两步翻译和文档级精炼,显著提高了翻译质量。
本文报告了第21届IWSLT会议的共享任务,涵盖七个口语翻译的科学挑战,包括实时翻译、离线翻译、自动字幕和配音等。共有18个团队提交了26篇论文,反映出对口语翻译的关注日益增加。
本论文报告了第21届IWSLT大会组织的共享任务,涵盖了7个口语翻译中的科学挑战。这些挑战包括实时和离线翻译、自动字幕和配音、语音到语音翻译、方言和低资源语音翻译及印地语翻译等。本研究突显了口语翻译领域越来越高的关注度,吸引了来自行业和学术界的18个团队,提交了26篇系统论文。
悉尼大学和JD合作在IWSLT 2021低资源语音翻译任务中取得了最佳分数和SOTA的性能,采用多种技术方法和模型结构。
本研究探讨了大型语言模型(LLMs)在医学转录中提高自动语音识别(ASR)系统准确性的潜力。通过使用PriMock57数据集对ASR生成的转录进行改善,发现LLMs特别是Chain-of-Thought(CoT)提示技术在医学转录领域取得了卓越表现。这些发现为改进医学ASR系统、提高医疗保健领域的病患记录的准确性和可靠性带来巨大的希望。
FBK在IWSLT 2024翻译评估竞赛中使用SimulSeamless方法进行语音到文本翻译,取得了良好的结果。该方法使用交叉注意力SimulST策略,在不重新训练或调整底层模型的情况下实现了良好的效果。该方法覆盖了超过143种源语言和200种目标语言。
完成下面两步后,将自动完成登录并继续当前操作。