小红花·文摘

本文研究了神经机器翻译中编码器-解码器Transformer模型的扩展特性，提出了交叉熵损失与编解码器大小的关系公式，并给出了最优化分配建议。发现训练/测试集组成偏差对模型扩展表现有重要影响，称之为“构造偏差”。研究了交叉熵损失与翻译质量的关系，发现模型大小对推理质量有不同影响。