将变压器视为所罗门夫归纳法的近似
原文中文,约400字,阅读约需1分钟。发表于: 。本研究探讨了所罗门夫归纳法在序列预测中的最优性,提出变压器模型在接近这一理想的预测能力上优于其他方法。我们提供了支持和反对这一假设的证据,并提出了考虑这些证据的替代假设,展望了未来在此基础上对变压器及其他人工智能的建模方向。
研究发现,transformers在复制任务上的性能优于GSSMs,且在泛化方面更好。预训练的大型语言模型也证明了transformer模型在复制和检索上下文信息的任务上的优势。综合结果表明,transformers与GSSMs在实际任务中存在根本差距。