本文研究了将预训练的语言模型表征集成到序列到序列模型中的不同策略,并将其应用于神经机器翻译和抽象摘要。实验证明,加入编码器网络的预训练表示是最有效的,可以在减慢推理速度仅14%的情况下获得高达5.3 BLEU的增益,并且即使有数百万个句对可用时,仍然可以观察到改进。最后,在CNN/DailyMail的完整文本版本上,达到了最新的研究成果。
完成下面两步后,将自动完成登录并继续当前操作。