研究探讨了变压器在上下文和任务学习中的应用。通过简化架构,表现与GPT-2相当,并结合特征映射与多层感知器,提供了新的实验设置。
研究探讨了变压器在上下文学习中的两个关键组成部分:上下文缩放和任务缩放。
提出了一种简化的变压器架构,表现与原始的GPT-2模型相当。
结合特征映射与多层感知器,实现了上下文缩放和任务缩放的双重优势。
为深入理解上下文学习提供了新的实验设置。
完成下面两步后,将自动完成登录并继续当前操作。