小红花·文摘

本研究提出了一种基于高效Transformer机制的长程语言模型EVALM，显示其在上下文学习和指令调整方面优于现有模型。通过实证研究，探讨了Transformer在学习算法中的表现及其在复杂任务中的局限性，并提出了增强上下文学习能力的方法，同时分析了预训练大语言模型的泛化能力。