本文介绍了一种新型的硬件-软件协同优化设计方法,旨在快速、准确、低功耗地加速可重构脉冲神经网络(SNN)推理。该方法通过低精度计算、硬件-软件共设计和可重构性,适应不同SNN模型,显著提升了速度、准确性和能效,推动了SNN的实际应用。
本研究提出了VAQF框架,用于在FPGA平台上构建量化的ViT模型推理加速器。实验结果显示,使用8位激活量化可满足24帧每秒要求,使用6位激活量化可达到30帧每秒目标。
本文介绍了AWS Inferentia2加速Hugging Face Transformers的方法,提供了前所未有的吞吐量、延迟、每瓦性能和可扩展性。通过与AWS的合作,Hugging Face优化了其模型以在Inferentia2上运行,性能比Inferentia和NVIDIA A10G GPU都要好。这个突破为更广泛的受众提供了高质量的机器学习模型,实现了人工智能的可访问性。
完成下面两步后,将自动完成登录并继续当前操作。