小红花·文摘

本文探讨了现代硬件下的模型架构设计，强调机器学习与系统的结合。随着计算能力和算法的进步，AI模型的性能不断提升。文章介绍了硬件感知算法的设计，特别是状态空间模型与注意力机制的结合，以优化内存使用和计算方式，从而显著提升推理表现，展示了新架构在视频生成等应用中的潜力。

现代硬件下的模型架构设计：Tri Dao

Josherich的博客 ·

本文提出了一种基于强化学习的硬件感知框架，通过修剪和量化自动压缩深度神经网络，实现了39%的能耗降低和仅1.7%的精度损失。该框架在嵌入式ARM处理器上显著优化了推理延迟，适用于资源有限的系统。

强化学习任务的神经网络压缩

BriefGPT - AI 论文速递 ·

本文提出了一种基于图卷积网络（GCN）的性能预测器，用于高效的硬件感知神经架构搜索（BRP-NAS）。该方法关注模型间的二元关系和数据选择策略，提升样本利用率，实验结果表明其在飞行器搜索领域优于现有方法。

FR-NAS: 前向和后向图预测器用于高效的神经网络架构搜索

BriefGPT - AI 论文速递 ·

本文介绍了一种在芯片上进行硬件感知的混合精度量化（OHQ）框架，通过构建量化感知管道和基于掩码的量化估计技术，实现了从硬件感知的混合精度量化。OHQ 在不需要额外计算设备和数据访问的情况下，对各种体系结构和压缩比率进行了量化推理，为 ResNet-18 和 MobileNetV3 分别实现了 70％和 73％的准确率，并且相较于部署中的 INT8，减少了 15～30％的延迟。

OHQ: 在芯片上的硬件感知量化

BriefGPT - AI 论文速递 ·