小红花·文摘

最近的研究发现，Transformer在学习基于梯度的实值函数算法方面表现良好，但在复杂任务上性能下降。提供教学序列可以提高Transformer的学习效率。预训练的大语言模型（LLMs）也在预测任务中具有竞争力。