TokenFormer：以标记化模型参数重新思考Transformer的扩展性

本研究解决了Transformer模型扩展时高昂成本的问题，借助TokenFormer架构，通过将模型参数视为标记来引入灵活的注意力机制，实现更高效的扩展，避免了从头训练的需求。研究发现，该模型在参数范围从1.24亿到14亿的情况下，能够达到与完全从头训练的Transformer相当的性能，同时显著降低了训练成本。

本研究提出了TokenFormer架构，以解决Transformer模型扩展的高成本问题。该模型通过将参数视为标记，引入灵活的注意力机制，实现高效扩展，避免从头训练。研究表明，当参数范围在1.24亿到14亿时，其性能与完全从头训练的Transformer相当，同时训练成本显著降低。

TokenFormer Transformer 参数注意力机制训练成本