SLOG：语义解析的结构化概括评估

通过引入 SLOG 数据集，我们展示了模型在构造化泛化任务中对词汇和结构的泛化能力存在巨大差异。相比 COGS 数据集，在 SLOG 数据集上，Transformer 模型（包括预训练模型）的泛化准确率仅达到 40.6%，而结构感知解析器仅达到 70.8%。

该文章探索了Transformer模型的设计空间，发现一些设计决策对模型的归纳偏差有很大影响。通过这些决策，可以显著提高模型的组合泛化能力，并在各种复合任务中实现了比文献报道更好的泛化结果。

Transformer模型复合任务归纳偏差组合泛化能力设计空间