💡 原文英文,约200词,阅读约需1分钟。
📝

内容提要

在预填充阶段,模型处理输入提示并为每个标记建立内部记忆,计算量大,且随着输入序列长度平方增长。对于长上下文任务,预填充可能占总推理成本的大部分,因为模型需要计算每个标记与其他标记的自注意力分数。

🎯

关键要点

  • 预填充阶段,模型处理整个输入提示并为每个标记建立内部记忆。
  • 该阶段计算量大,随着输入序列长度平方增长。
  • 对于长上下文任务,预填充可能占总推理成本的大部分。
  • 模型需要计算每个标记与其他标记的自注意力分数。
  • 例如,1000个标记的提示需要进行大约1000 x 1000次注意力操作。
  • 100,000个标记的提示需要进行10亿次操作。
  • 100K标记的预填充需要大量的浮点运算,可能导致较低的GPU吞吐量。
➡️

继续阅读