将变压器视为所罗门夫归纳法的近似

本研究探讨了所罗门夫归纳法在序列预测中的最优性，提出变压器模型在接近这一理想的预测能力上优于其他方法。我们提供了支持和反对这一假设的证据，并提出了考虑这些证据的替代假设，展望了未来在此基础上对变压器及其他人工智能的建模方向。

研究发现，transformers在复制任务上的性能优于GSSMs，且在泛化方面更好。预训练的大型语言模型也证明了transformer模型在复制和检索上下文信息的任务上的优势。综合结果表明，transformers与GSSMs在实际任务中存在根本差距。