内容提要
近日,一家公司推出了将大模型直接写入ASIC芯片的技术,推理速度达到17000 Token/s,耗电和成本比英伟达显卡低10倍。这种ASIC有望改变算力竞争格局,未来可能主导大模型推理,而GPU则回归训练和通用计算。
关键要点
-
一家公司推出将大模型直接写入ASIC芯片的技术,推理速度达到17000 Token/s。
-
该技术的耗电和成本比英伟达显卡低10倍。
-
ASIC(专用集成电路)与CPU和GPU的区别在于其专用性和高效性。
-
Taalas发布的ASIC芯片能够运行Llama 3.1 8B模型,直接将模型变成电路。
-
Taalas采用神奇乘法器硬件方案,将32层Llama 3.1按顺序刻在芯片上。
-
为处理大型模型,Taalas设想使用约30块定制ASIC协同推理。
-
单用户推理速度约为12000 token/秒,每100万token成本约7.6美分。
-
未来可能是ASIC主导大模型推理,而GPU回归训练和通用计算。
-
ASIC的极端专用性意味着模型升级时需重新流片,而GPU可运行任何模型。
-
算力的战争进入新阶段,AI推理可能成为标准化、规模化的重复计算。
延伸解读
ASIC与GPU的比较
ASIC芯片的专用性使其在特定任务上表现优异,尤其是在大模型推理中,其速度和成本优势明显。然而,GPU的灵活性仍然是其一大优势,能够适应不同模型的需求。未来,GPU可能会回归训练和通用计算领域,而ASIC则主导推理,这种分工将影响整个AI行业的技术发展方向。
算力竞争的新阶段
随着ASIC技术的成熟,AI推理的标准化和规模化将成为趋势。这意味着算力将可能集中在少数几家拥有ASIC技术的公司手中,可能会对小型企业和开源模型的发展造成挑战。行业参与者需关注这一变化,以便在新的竞争环境中找到自己的定位。
模型升级的挑战
ASIC的极端专用性意味着一旦模型升级,可能需要重新流片,这将增加开发成本和时间。相比之下,GPU可以灵活地运行不同的模型,这使得其在快速变化的AI领域中仍具备竞争力。开发者在选择技术时需考虑这一点,以避免未来的技术锁定风险。
延伸问答
ASIC芯片的推理速度有多快?
ASIC芯片的推理速度达到17000 Token/s。
与英伟达显卡相比,ASIC的成本和能耗如何?
ASIC的成本和能耗比英伟达显卡低10倍。
Taalas是如何将大模型写入ASIC芯片的?
Taalas将32层Llama 3.1按顺序刻在芯片上,使用神奇乘法器硬件方案。
ASIC的极端专用性有什么影响?
ASIC的极端专用性意味着模型升级时需重新流片,而GPU可以运行任何模型。
未来的算力竞争格局会如何变化?
未来可能是ASIC主导大模型推理,而GPU回归训练和通用计算。
使用ASIC进行大模型推理的优势是什么?
使用ASIC进行大模型推理成本低廉、速度快、能耗低。