💡
原文英文,约200词,阅读约需1分钟。
📝
内容提要
在预填充阶段,模型处理输入提示并为每个标记建立内部记忆,计算量大,且随着输入序列长度平方增长。对于长上下文任务,预填充可能占总推理成本的大部分,因为模型需要计算每个标记与其他标记的自注意力分数。
🎯
关键要点
- 预填充阶段,模型处理整个输入提示并为每个标记建立内部记忆。
- 该阶段计算量大,随着输入序列长度平方增长。
- 对于长上下文任务,预填充可能占总推理成本的大部分。
- 模型需要计算每个标记与其他标记的自注意力分数。
- 例如,1000个标记的提示需要进行大约1000 x 1000次注意力操作。
- 100,000个标记的提示需要进行10亿次操作。
- 100K标记的预填充需要大量的浮点运算,可能导致较低的GPU吞吐量。
➡️