Flash Attention作者最新播客:英伟达GPU统治三年内将终结
💡
原文中文,约13000字,阅读约需31分钟。
📝
内容提要
Flash Attention的作者Tri Dao在播客中预测,未来三年内英伟达将失去GPU市场主导地位,AI硬件生态将变得多元化。他指出推理成本已下降100倍,未来有望再降10倍,技术进步将推动AI硬件发展。
🎯
关键要点
- Tri Dao预测英伟达将在未来三年内失去GPU市场主导地位。
- AI硬件生态将变得更加多元化,推理成本已下降100倍,未来还有望再降低10倍。
- 未来将出现三类工作负载模式:传统聊天机器人、极低延迟场景和大规模批处理。
- 推理优化技术的进步包括模型量化和硬件协同设计。
- 芯片设计面临挑战,尤其是在稀疏计算和低延迟需求方面。
- 未来推理优化技术还有约10倍的提升空间,硬件和模型层面均有改进潜力。
- AI推理市场将出现专门化,针对不同场景进行优化。
- Tri Dao认为AI模型在某些任务上已达到中等水平,但仍需提升以与人类专家协同工作。
- 未来的架构创新可能会推动AGI的发展,当前架构已具备关键成分。
- 学术界与工业界的结合能够推动AI基础设施的发展,探索与开发相结合。
➡️