AIxiv报道了新一代通用网络结构TokenFormer,该模型通过将参数视为Token,提升了Transformer的灵活性和可扩展性。TokenFormer支持增量扩展,显著降低计算开销,并在语言和视觉建模中表现优异,研究团队期望其在多个领域得到更广泛应用。
本研究提出了TokenFormer架构,通过将模型参数视为标记,解决了Transformer模型扩展的高成本问题。在参数范围1.24亿到14亿时,该模型的性能与完全从头训练的Transformer相当,同时显著降低了训练成本。
完成下面两步后,将自动完成登录并继续当前操作。