小红花·文摘 - 小红花技术领袖俱乐部

本研究提出NeuroSim V1.5，旨在提高传统冯·诺依曼架构的效率。通过与TensorRT集成、新的噪声注入方法及扩展设备支持，显著提升了ACIM加速器的建模准确性，实现了在设计空间中同时探索精度与硬件效率的可能性。

NeuroSim V1.5: Improved Software Backbone for Benchmarking Compute-in-Memory Accelerators with Device and Circuit-Level Non-Idealities

BriefGPT - AI 论文速递 ·

本研究提出了一种新的列级量化方法，旨在解决深度神经网络中的量化误差和低位权重限制问题。该方法提高了准确性，简化了训练过程，并增强了对内存单元变化的鲁棒性。实验结果表明，该方法在准确性和硬件效率上均优于相关研究。

Column-wise Quantization of Weights and Partial Sums for Accurate and Efficient Compute-In-Memory Accelerators

BriefGPT - AI 论文速递 ·

DeepSeek-V3论文引发关注，因其绕过CUDA，利用PTX语言提升硬件效率达10倍。分析指出其重建架构挑战英伟达技术壁垒，尽管PTX复杂，DeepSeek仍与AMD等合作，展示优化能力，可能推动AI自我改进。

“DeepSeek甚至绕过了CUDA”，论文细节再引热议，工程师灵魂提问：英伟达护城河还在吗？

量子位 ·

播客：与安妮·库里和萨拉·伯格曼一起构建绿色软件

播客：与安妮·库里和萨拉·伯格曼一起构建绿色软件

InfoQ ·

本研究提出DPD-NeuralEngine加速器，提升深度神经网络基础的数字预失真在通信系统中的硬件效率。该加速器采用GRU神经网络设计，结合软硬件协同，在22纳米CMOS技术下运行，达到256.5 GOPS吞吐量和1.32 TOPS/W功率效率，实现首个AI基础的DPD专用集成电路加速器，功率面积效率为6.6 TOPS/W/mm²。

DPD-神经引擎：一种22纳米6.6-TOPS/W/mm²的递归神经网络加速器用于宽带功率放大器数字预失真

BriefGPT - AI 论文速递 ·

该研究探讨了大型语言模型的后训练量化，特别是4位权重和8位激活量化，以提高计算效率。通过创新技术和混合数据格式，解决了量化中的问题，并证明了这些技术显著提高了任务准确度。该方法相对于8位整数MAC单元可以提升2倍硬件效率。

LRQ：通过学习低秩权重缩放矩阵优化大型语言模型的后训练量化

BriefGPT - AI 论文速递 ·

该研究探讨了大型语言模型的后训练量化，特别是4位权重和8位激活（W4A8）量化，以提高计算效率。研究引入了激活量化感知的缩放（AQAS）和序列长度感知的校准（SLAC）等创新技术，并使用混合数据格式（dINT）解决了W4A8量化中的下溢问题。通过严格评估，证明这些技术显著提高了任务准确度，并且与完整精度模型相当。该方法相对于8位整数MAC单元可以提升2倍硬件效率。

评估量化的大型语言模型

BriefGPT - AI 论文速递 ·

本文介绍了DS-Net，一种动态可整合网络概念，通过调整卷积滤波器数量提高硬件效率。DS-Net具有动态推理能力和两阶段训练方案，在ImageNet数据集上表现出比ResNet-50和MobileNet更高的计算性能和实际加速性能。

Dr2Net：动态可逆双重残差网络用于高效调优

BriefGPT - AI 论文速递 ·

SmoothQuant是一个免费的后训练量化解决方案，可用于大型语言模型，实现8位权重和激活的量化，提高硬件效率，降低硬件成本，是一个民主化LLMs的解决方案。

探索蛋白质语言模型的后训练量化

BriefGPT - AI 论文速递 ·

人工智能与效率

人工智能与效率

OpenAI ·