本研究提出NeuroSim V1.5,旨在提高传统冯·诺依曼架构的效率。通过与TensorRT集成、新的噪声注入方法及扩展设备支持,显著提升了ACIM加速器的建模准确性,实现了在设计空间中同时探索精度与硬件效率的可能性。
本研究提出了一种新的列级量化方法,旨在解决深度神经网络中的量化误差和低位权重限制问题。该方法提高了准确性,简化了训练过程,并增强了对内存单元变化的鲁棒性。实验结果表明,该方法在准确性和硬件效率上均优于相关研究。
DeepSeek-V3论文引发关注,因其绕过CUDA,利用PTX语言提升硬件效率达10倍。分析指出其重建架构挑战英伟达技术壁垒,尽管PTX复杂,DeepSeek仍与AMD等合作,展示优化能力,可能推动AI自我改进。
《构建绿色软件》一书探讨了IT行业的绿色意义,强调绿色软件应减少碳排放并优化可再生能源使用。书中讨论了能效、硬件效率和碳意识等原则,建议开发者选择绿色平台和优化代码以降低碳足迹。
本文探讨了神经网络的形式验证方法,包括针对分段线性激活函数的前向神经网络验证、二值化神经网络的硬件验证、深度学习模型的统一验证框架,以及新型符号推理框架的提出。研究强调了机器学习在交通运输领域的应用及其认证需求,并提出了改进数字表示方法和算法以提高硬件效率。
SmoothQuant是一种后训练量化解决方案,旨在提高大型语言模型(LLMs)的硬件效率,减少内存使用并加速推理。通过平滑激活异常值和优化权重,SmoothQuant实现了8位权重和激活量化,降低成本同时保持精度。相关方法如AdaDim和Agile-Quant进一步提升了模型性能和推理速度,解决了激活稀疏性问题,推动了LLMs在边缘设备上的应用。
SmoothQuant是一种后训练量化解决方案,旨在提高大型语言模型的硬件效率,支持8位和4位权重量化,减少内存并加速推理。通过激活量化感知和混合数据格式,SmoothQuant+实现了无损量化,显著提升了吞吐量和准确度。同时,Agile-Quant框架和I-LLM方法进一步优化了边缘设备上的推理速度和计算效率,推动了移动AI的研究与应用。
本文介绍了AsymGQA、GQA和DG-Attention等多种改进的注意力机制,旨在提升模型性能和硬件效率。这些方法通过优化查询头分组和关键值缓存,在图像分类和语言模型推断中显著提高了准确性并降低了模型大小。
本文介绍了一种高效的低精度模型量化方法QLLM,通过自适应通道重组技术提高大规模语言模型的准确率。该方法适用于混合专家模型和密集模型,能够减少内存消耗并加速推断,无需额外微调。研究还探讨了多种量化技术,展示了在保持准确性的同时显著提升计算和硬件效率。
本文探讨了量化对深度神经网络(DNN)模型的准确性、激活故障可靠性和硬件效率的影响,提出了一种全自动化框架和轻量级保护技术。研究表明,量化显著影响网络的可靠性和性能,尤其在瞬态故障方面。此外,介绍了基于可配置Systolic数组的DNN加速器模拟器SCALE-Sim,优化了硬件监控器的放置以提高可靠性。
该研究探讨了大型语言模型的后训练量化,特别是4位权重和8位激活(W4A8)量化,以提高计算效率。研究引入了激活量化感知的缩放(AQAS)和序列长度感知的校准(SLAC)等创新技术,并使用混合数据格式(dINT)解决了W4A8量化中的下溢问题。通过严格评估,证明这些技术显著提高了任务准确度,并且与完整精度模型相当。该方法相对于8位整数MAC单元可以提升2倍硬件效率。
本文介绍了DS-Net,一种动态可整合网络概念,通过调整卷积滤波器数量提高硬件效率。DS-Net具有动态推理能力和两阶段训练方案,在ImageNet数据集上表现出比ResNet-50和MobileNet更高的计算性能和实际加速性能。
SmoothQuant是一个免费的后训练量化解决方案,可用于大型语言模型,实现8位权重和激活的量化,提高硬件效率,降低硬件成本,是一个民主化LLMs的解决方案。
自2012年以来,训练神经网络达到ImageNet分类相同性能所需的计算量每16个月减少一半。与2012年相比,训练达到AlexNet水平的计算量减少了44倍,表明算法进步超过了传统硬件效率。
完成下面两步后,将自动完成登录并继续当前操作。