AI 正在“矿机化”:成本降 10 倍,GPU 会被淘汰吗?

AI 正在“矿机化”:成本降 10 倍,GPU 会被淘汰吗?

💡 原文中文,约2000字,阅读约需5分钟。
📝

内容提要

近日,一家公司推出了将大模型直接写入ASIC芯片的技术,推理速度达到17000 Token/s,耗电和成本比英伟达显卡低10倍。这种ASIC有望改变算力竞争格局,未来可能主导大模型推理,而GPU则回归训练和通用计算。

🎯

关键要点

  • 一家公司推出将大模型直接写入ASIC芯片的技术,推理速度达到17000 Token/s。

  • 该技术的耗电和成本比英伟达显卡低10倍。

  • ASIC(专用集成电路)与CPU和GPU的区别在于其专用性和高效性。

  • Taalas发布的ASIC芯片能够运行Llama 3.1 8B模型,直接将模型变成电路。

  • Taalas采用神奇乘法器硬件方案,将32层Llama 3.1按顺序刻在芯片上。

  • 为处理大型模型,Taalas设想使用约30块定制ASIC协同推理。

  • 单用户推理速度约为12000 token/秒,每100万token成本约7.6美分。

  • 未来可能是ASIC主导大模型推理,而GPU回归训练和通用计算。

  • ASIC的极端专用性意味着模型升级时需重新流片,而GPU可运行任何模型。

  • 算力的战争进入新阶段,AI推理可能成为标准化、规模化的重复计算。

🔎

延伸解读

ASIC与GPU的比较

ASIC芯片的专用性使其在特定任务上表现优异,尤其是在大模型推理中,其速度和成本优势明显。然而,GPU的灵活性仍然是其一大优势,能够适应不同模型的需求。未来,GPU可能会回归训练和通用计算领域,而ASIC则主导推理,这种分工将影响整个AI行业的技术发展方向。

算力竞争的新阶段

随着ASIC技术的成熟,AI推理的标准化和规模化将成为趋势。这意味着算力将可能集中在少数几家拥有ASIC技术的公司手中,可能会对小型企业和开源模型的发展造成挑战。行业参与者需关注这一变化,以便在新的竞争环境中找到自己的定位。

模型升级的挑战

ASIC的极端专用性意味着一旦模型升级,可能需要重新流片,这将增加开发成本和时间。相比之下,GPU可以灵活地运行不同的模型,这使得其在快速变化的AI领域中仍具备竞争力。开发者在选择技术时需考虑这一点,以避免未来的技术锁定风险。

延伸问答

ASIC芯片的推理速度有多快?

ASIC芯片的推理速度达到17000 Token/s。

与英伟达显卡相比,ASIC的成本和能耗如何?

ASIC的成本和能耗比英伟达显卡低10倍。

Taalas是如何将大模型写入ASIC芯片的?

Taalas将32层Llama 3.1按顺序刻在芯片上,使用神奇乘法器硬件方案。

ASIC的极端专用性有什么影响?

ASIC的极端专用性意味着模型升级时需重新流片,而GPU可以运行任何模型。

未来的算力竞争格局会如何变化?

未来可能是ASIC主导大模型推理,而GPU回归训练和通用计算。

使用ASIC进行大模型推理的优势是什么?

使用ASIC进行大模型推理成本低廉、速度快、能耗低。

🏷️

标签

➡️

继续阅读