N-gram预测与词差表示在语言建模中的应用
原文中文,约300字,阅读约需1分钟。发表于: 。本研究针对因次词预测方法可能导致模型过度依赖句子内局部依赖的问题,提出了一种新的N-gram预测框架用于因果语言建模(CLM)。此外,引入词差表示(WDR)作为模型训练中的替代和上下文化目标表示,结合未来N词的预测结果的集成方法显著提升了次词预测的质量,实验结果表明,该方法在多个基准数据集上优于传统的CLM。
本研究分析了神经机器翻译模型在不同粒度上学习到的表示,并通过外围特性评估其质量。结果显示深层次的NMT模型学习了大量语言信息,包括词组结构和词类等语言单元。词汇语义和非局部的句法和语义依存在较高层次上表示更好。使用字符学习的表示比使用子词单位学习的更具有词形信息。多语言模型学习的表示比双语模型更丰富。