本文探讨了现代硬件下的模型架构设计,强调机器学习与系统的结合。随着计算能力和算法的进步,AI模型的性能不断提升。文章介绍了硬件感知算法的设计,特别是状态空间模型与注意力机制的结合,以优化内存使用和计算方式,从而显著提升推理表现,展示了新架构在视频生成等应用中的潜力。
本文提出了一种基于强化学习的硬件感知框架,通过修剪和量化自动压缩深度神经网络,实现了39%的能耗降低和仅1.7%的精度损失。该框架在嵌入式ARM处理器上显著优化了推理延迟,适用于资源有限的系统。
本文提出了一种基于图卷积网络(GCN)的性能预测器,用于高效的硬件感知神经架构搜索(BRP-NAS)。该方法关注模型间的二元关系和数据选择策略,提升样本利用率,实验结果表明其在飞行器搜索领域优于现有方法。
本文介绍了一种在芯片上进行硬件感知的混合精度量化(OHQ)框架,通过构建量化感知管道和基于掩码的量化估计技术,实现了从硬件感知的混合精度量化。OHQ 在不需要额外计算设备和数据访问的情况下,对各种体系结构和压缩比率进行了量化推理,为 ResNet-18 和 MobileNetV3 分别实现了 70%和 73%的准确率,并且相较于部署中的 INT8,减少了 15~30%的延迟。
完成下面两步后,将自动完成登录并继续当前操作。