💡 原文中文,约2000字,阅读约需5分钟。
📝

内容提要

近日,一家公司推出了将大模型直接写入ASIC芯片的技术,推理速度达到17000 Token/s,耗电和成本比英伟达显卡低10倍。这种ASIC有望改变算力竞争格局,未来可能主导大模型推理,而GPU则回归训练和通用计算。

🎯

关键要点

  • 一家公司推出将大模型直接写入ASIC芯片的技术,推理速度达到17000 Token/s。
  • 该技术的耗电和成本比英伟达显卡低10倍。
  • ASIC(专用集成电路)与CPU和GPU的区别在于其专用性和高效性。
  • Taalas发布的ASIC芯片能够运行Llama 3.1 8B模型,直接将模型变成电路。
  • Taalas采用神奇乘法器硬件方案,将32层Llama 3.1按顺序刻在芯片上。
  • 为处理大型模型,Taalas设想使用约30块定制ASIC协同推理。
  • 单用户推理速度约为12000 token/秒,每100万token成本约7.6美分。
  • 未来可能是ASIC主导大模型推理,而GPU回归训练和通用计算。
  • ASIC的极端专用性意味着模型升级时需重新流片,而GPU可运行任何模型。
  • 算力的战争进入新阶段,AI推理可能成为标准化、规模化的重复计算。
➡️

继续阅读