💡
原文中文,约2000字,阅读约需5分钟。
📝
内容提要
近日,一家公司推出了将大模型直接写入ASIC芯片的技术,推理速度达到17000 Token/s,耗电和成本比英伟达显卡低10倍。这种ASIC有望改变算力竞争格局,未来可能主导大模型推理,而GPU则回归训练和通用计算。
🎯
关键要点
- 一家公司推出将大模型直接写入ASIC芯片的技术,推理速度达到17000 Token/s。
- 该技术的耗电和成本比英伟达显卡低10倍。
- ASIC(专用集成电路)与CPU和GPU的区别在于其专用性和高效性。
- Taalas发布的ASIC芯片能够运行Llama 3.1 8B模型,直接将模型变成电路。
- Taalas采用神奇乘法器硬件方案,将32层Llama 3.1按顺序刻在芯片上。
- 为处理大型模型,Taalas设想使用约30块定制ASIC协同推理。
- 单用户推理速度约为12000 token/秒,每100万token成本约7.6美分。
- 未来可能是ASIC主导大模型推理,而GPU回归训练和通用计算。
- ASIC的极端专用性意味着模型升级时需重新流片,而GPU可运行任何模型。
- 算力的战争进入新阶段,AI推理可能成为标准化、规模化的重复计算。
➡️