本研究提出NeuroSim V1.5,旨在提高传统冯·诺依曼架构的效率。通过与TensorRT集成、新的噪声注入方法及扩展设备支持,显著提升了ACIM加速器的建模准确性,实现了在设计空间中同时探索精度与硬件效率的可能性。
本研究提出了一种新的列级量化方法,旨在解决深度神经网络中的量化误差和低位权重限制问题。该方法提高了准确性,简化了训练过程,并增强了对内存单元变化的鲁棒性。实验结果表明,该方法在准确性和硬件效率上均优于相关研究。
DeepSeek-V3论文引发关注,因其绕过CUDA,利用PTX语言提升硬件效率达10倍。分析指出其重建架构挑战英伟达技术壁垒,尽管PTX复杂,DeepSeek仍与AMD等合作,展示优化能力,可能推动AI自我改进。
《构建绿色软件》一书探讨了IT行业的绿色意义,强调绿色软件应减少碳排放并优化可再生能源使用。书中讨论了能效、硬件效率和碳意识等原则,建议开发者选择绿色平台和优化代码以降低碳足迹。
本研究提出DPD-NeuralEngine加速器,提升深度神经网络基础的数字预失真在通信系统中的硬件效率。该加速器采用GRU神经网络设计,结合软硬件协同,在22纳米CMOS技术下运行,达到256.5 GOPS吞吐量和1.32 TOPS/W功率效率,实现首个AI基础的DPD专用集成电路加速器,功率面积效率为6.6 TOPS/W/mm²。
该研究探讨了大型语言模型的后训练量化,特别是4位权重和8位激活量化,以提高计算效率。通过创新技术和混合数据格式,解决了量化中的问题,并证明了这些技术显著提高了任务准确度。该方法相对于8位整数MAC单元可以提升2倍硬件效率。
该研究探讨了大型语言模型的后训练量化,特别是4位权重和8位激活(W4A8)量化,以提高计算效率。研究引入了激活量化感知的缩放(AQAS)和序列长度感知的校准(SLAC)等创新技术,并使用混合数据格式(dINT)解决了W4A8量化中的下溢问题。通过严格评估,证明这些技术显著提高了任务准确度,并且与完整精度模型相当。该方法相对于8位整数MAC单元可以提升2倍硬件效率。
本文介绍了DS-Net,一种动态可整合网络概念,通过调整卷积滤波器数量提高硬件效率。DS-Net具有动态推理能力和两阶段训练方案,在ImageNet数据集上表现出比ResNet-50和MobileNet更高的计算性能和实际加速性能。
SmoothQuant是一个免费的后训练量化解决方案,可用于大型语言模型,实现8位权重和激活的量化,提高硬件效率,降低硬件成本,是一个民主化LLMs的解决方案。
自2012年以来,训练神经网络达到ImageNet分类相同性能所需的计算量每16个月减少一半。与2012年相比,训练达到AlexNet水平的计算量减少了44倍,表明算法进步超过了传统硬件效率。
完成下面两步后,将自动完成登录并继续当前操作。