在多模态应用中使用的存储器计算技术——详细解析 ISSCC 2023 16.1 Multcim

💡 原文英文,约2000词,阅读约需8分钟。
📝

内容提要

清华大学和香港科技大学的研究提出了一种新的加速器设计,解决多模态Transformer模型在硬件执行时的稀疏性问题。通过优化调度器、令牌修剪器和自适应网络,提高了计算效率,减少了延迟。多模态模型在视觉问答和图像描述等领域有广泛应用,未来将进一步推动AI发展。

🎯

关键要点

  • 清华大学和香港科技大学提出了一种新的加速器设计,解决多模态Transformer模型的稀疏性问题。
  • 多模态模型能够理解来自不同模态的混合信号,是AI模型发展的重要方向。
  • 当前多模态Transformer模型在硬件执行时面临注意力稀疏性、令牌稀疏性和位稀疏性三大挑战。
  • 针对注意力稀疏性,提出了长重用消除调度器(LRES),优化了注意力矩阵的存储和利用。
  • 为了解决令牌稀疏性问题,提出了运行时令牌修剪器(RTP)和模态自适应CIM网络(MACN),减少计算闲置和延迟。
  • 为应对位稀疏性,提出了有效位宽平衡CIM(EBB-CIM)宏架构,优化了输入位宽的平衡。
  • 多模态模型在视觉问答和图像描述等领域有广泛应用,未来将推动AI的发展。
  • 多模态模型的应用面临网络规模、参数增加和训练成本上升等挑战,存储计算技术能够有效应对这些问题。
  • 存储计算芯片在多模态模型训练和推理中具有更高的能效和计算效率,预计将取代传统冯·诺依曼架构。
➡️

继续阅读