小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本研究提出NeuroSim V1.5,旨在提高传统冯·诺依曼架构的效率。通过与TensorRT集成、新的噪声注入方法及扩展设备支持,显著提升了ACIM加速器的建模准确性,实现了在设计空间中同时探索精度与硬件效率的可能性。

NeuroSim V1.5: Improved Software Backbone for Benchmarking Compute-in-Memory Accelerators with Device and Circuit-Level Non-Idealities

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-05T00:00:00Z

本研究提出了一种新的列级量化方法,旨在解决深度神经网络中的量化误差和低位权重限制问题。该方法提高了准确性,简化了训练过程,并增强了对内存单元变化的鲁棒性。实验结果表明,该方法在准确性和硬件效率上均优于相关研究。

Column-wise Quantization of Weights and Partial Sums for Accurate and Efficient Compute-In-Memory Accelerators

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-11T00:00:00Z

DeepSeek-V3论文引发关注,因其绕过CUDA,利用PTX语言提升硬件效率达10倍。分析指出其重建架构挑战英伟达技术壁垒,尽管PTX复杂,DeepSeek仍与AMD等合作,展示优化能力,可能推动AI自我改进。

“DeepSeek甚至绕过了CUDA”,论文细节再引热议,工程师灵魂提问:英伟达护城河还在吗?

量子位
量子位 · 2025-01-29T03:49:53Z
播客:与安妮·库里和萨拉·伯格曼一起构建绿色软件

《构建绿色软件》一书探讨了IT行业的绿色意义,强调绿色软件应减少碳排放并优化可再生能源使用。书中讨论了能效、硬件效率和碳意识等原则,建议开发者选择绿色平台和优化代码以降低碳足迹。

播客:与安妮·库里和萨拉·伯格曼一起构建绿色软件

InfoQ
InfoQ · 2025-01-13T11:00:00Z

本文探讨了神经网络的形式验证方法,包括针对分段线性激活函数的前向神经网络验证、二值化神经网络的硬件验证、深度学习模型的统一验证框架,以及新型符号推理框架的提出。研究强调了机器学习在交通运输领域的应用及其认证需求,并提出了改进数字表示方法和算法以提高硬件效率。

神经模型检查

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-31T00:00:00Z

SmoothQuant是一种后训练量化解决方案,旨在提高大型语言模型(LLMs)的硬件效率,减少内存使用并加速推理。通过平滑激活异常值和优化权重,SmoothQuant实现了8位权重和激活量化,降低成本同时保持精度。相关方法如AdaDim和Agile-Quant进一步提升了模型性能和推理速度,解决了激活稀疏性问题,推动了LLMs在边缘设备上的应用。

旋转运行平滑:无训练激活平滑器用于准确的INT4推理

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-30T00:00:00Z

SmoothQuant是一种后训练量化解决方案,旨在提高大型语言模型的硬件效率,支持8位和4位权重量化,减少内存并加速推理。通过激活量化感知和混合数据格式,SmoothQuant+实现了无损量化,显著提升了吞吐量和准确度。同时,Agile-Quant框架和I-LLM方法进一步优化了边缘设备上的推理速度和计算效率,推动了移动AI的研究与应用。

移动量化:适用于设备语言模型的移动友好量化

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-25T00:00:00Z

本文介绍了AsymGQA、GQA和DG-Attention等多种改进的注意力机制,旨在提升模型性能和硬件效率。这些方法通过优化查询头分组和关键值缓存,在图像分类和语言模型推断中显著提高了准确性并降低了模型大小。

Transformer 中的加权分组查询注意力

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-15T00:00:00Z

本文介绍了一种高效的低精度模型量化方法QLLM,通过自适应通道重组技术提高大规模语言模型的准确率。该方法适用于混合专家模型和密集模型,能够减少内存消耗并加速推断,无需额外微调。研究还探讨了多种量化技术,展示了在保持准确性的同时显著提升计算和硬件效率。

I-LLM:针对完全量化低位大型语言模型的高效整数推断

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-28T00:00:00Z

本文探讨了量化对深度神经网络(DNN)模型的准确性、激活故障可靠性和硬件效率的影响,提出了一种全自动化框架和轻量级保护技术。研究表明,量化显著影响网络的可靠性和性能,尤其在瞬态故障方面。此外,介绍了基于可配置Systolic数组的DNN加速器模拟器SCALE-Sim,优化了硬件监控器的放置以提高可靠性。

SAFFIRA: 用于评估基于 Systolic-Array 的 DNN 加速器可靠性的框架

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-05T00:00:00Z

该研究探讨了大型语言模型的后训练量化,特别是4位权重和8位激活(W4A8)量化,以提高计算效率。研究引入了激活量化感知的缩放(AQAS)和序列长度感知的校准(SLAC)等创新技术,并使用混合数据格式(dINT)解决了W4A8量化中的下溢问题。通过严格评估,证明这些技术显著提高了任务准确度,并且与完整精度模型相当。该方法相对于8位整数MAC单元可以提升2倍硬件效率。

评估量化的大型语言模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-28T00:00:00Z

本文介绍了DS-Net,一种动态可整合网络概念,通过调整卷积滤波器数量提高硬件效率。DS-Net具有动态推理能力和两阶段训练方案,在ImageNet数据集上表现出比ResNet-50和MobileNet更高的计算性能和实际加速性能。

Dr2Net:动态可逆双重残差网络用于高效调优

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-08T00:00:00Z

SmoothQuant是一个免费的后训练量化解决方案,可用于大型语言模型,实现8位权重和激活的量化,提高硬件效率,降低硬件成本,是一个民主化LLMs的解决方案。

探索蛋白质语言模型的后训练量化

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-30T00:00:00Z
人工智能与效率

自2012年以来,训练神经网络达到ImageNet分类相同性能所需的计算量每16个月减少一半。与2012年相比,训练达到AlexNet水平的计算量减少了44倍,表明算法进步超过了传统硬件效率。

人工智能与效率

OpenAI
OpenAI · 2020-05-05T07:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码