在有限显存下,运行大型语言模型需平衡模型规模、量化精度和上下文长度。显存需求受模型参数、上下文缓存和系统开销影响,增加上下文长度会迅速消耗显存。选择合适的量化格式可提升性能。
本研究提出了一种名为VAQF的框架,可在FPGA平台上构建量化的ViT模型推理加速器,并自动输出所需的量化精度和优化参数设置,以满足帧速率要求。实验结果表明,使用8位激活量化可满足24帧每秒的要求,使用6位激活量化可达到30帧每秒的目标。
完成下面两步后,将自动完成登录并继续当前操作。