Transformer要解决的三个问题 - 蝈蝈俊
原文中文,约2800字,阅读约需7分钟。发表于: 。在Transformer最初被提出时,主要是为了解决传统神经机器翻译模型中存在的下面三个问题: 1、长距离依赖问题(Long-range dependency) 举个例子,在英文到中文的翻译中,句子中的主语和谓语动词可能之间相隔较远,但是需要正确地识别和翻译。 比如: “The cat that I
Transformer模型最初为解决神经机器翻译中的问题而设计,利用自注意力机制处理依赖关系,提高翻译系统性能。随着成功应用于翻译领域,发现Transformer可应用于其他自然语言处理任务和领域,具有并行性、灵活性、上下文理解、长距离依赖建模和泛化能力等关键能力,取得显著成功。