小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本研究提出NeuroSim V1.5,旨在提高传统冯·诺依曼架构的效率。通过与TensorRT集成、新的噪声注入方法及扩展设备支持,显著提升了ACIM加速器的建模准确性,实现了在设计空间中同时探索精度与硬件效率的可能性。

NeuroSim V1.5: Improved Software Backbone for Benchmarking Compute-in-Memory Accelerators with Device and Circuit-Level Non-Idealities

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-05T00:00:00Z

本研究提出了一种新的列级量化方法,旨在解决深度神经网络中的量化误差和低位权重限制问题。该方法提高了准确性,简化了训练过程,并增强了对内存单元变化的鲁棒性。实验结果表明,该方法在准确性和硬件效率上均优于相关研究。

Column-wise Quantization of Weights and Partial Sums for Accurate and Efficient Compute-In-Memory Accelerators

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-11T00:00:00Z

DeepSeek-V3论文引发关注,因其绕过CUDA,利用PTX语言提升硬件效率达10倍。分析指出其重建架构挑战英伟达技术壁垒,尽管PTX复杂,DeepSeek仍与AMD等合作,展示优化能力,可能推动AI自我改进。

“DeepSeek甚至绕过了CUDA”,论文细节再引热议,工程师灵魂提问:英伟达护城河还在吗?

量子位
量子位 · 2025-01-29T03:49:53Z
播客:与安妮·库里和萨拉·伯格曼一起构建绿色软件

《构建绿色软件》一书探讨了IT行业的绿色意义,强调绿色软件应减少碳排放并优化可再生能源使用。书中讨论了能效、硬件效率和碳意识等原则,建议开发者选择绿色平台和优化代码以降低碳足迹。

播客:与安妮·库里和萨拉·伯格曼一起构建绿色软件

InfoQ
InfoQ · 2025-01-13T11:00:00Z

本研究提出DPD-NeuralEngine加速器,提升深度神经网络基础的数字预失真在通信系统中的硬件效率。该加速器采用GRU神经网络设计,结合软硬件协同,在22纳米CMOS技术下运行,达到256.5 GOPS吞吐量和1.32 TOPS/W功率效率,实现首个AI基础的DPD专用集成电路加速器,功率面积效率为6.6 TOPS/W/mm²。

DPD-神经引擎:一种22纳米6.6-TOPS/W/mm²的递归神经网络加速器用于宽带功率放大器数字预失真

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-15T00:00:00Z

该研究探讨了大型语言模型的后训练量化,特别是4位权重和8位激活量化,以提高计算效率。通过创新技术和混合数据格式,解决了量化中的问题,并证明了这些技术显著提高了任务准确度。该方法相对于8位整数MAC单元可以提升2倍硬件效率。

LRQ:通过学习低秩权重缩放矩阵优化大型语言模型的后训练量化

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-16T00:00:00Z

该研究探讨了大型语言模型的后训练量化,特别是4位权重和8位激活(W4A8)量化,以提高计算效率。研究引入了激活量化感知的缩放(AQAS)和序列长度感知的校准(SLAC)等创新技术,并使用混合数据格式(dINT)解决了W4A8量化中的下溢问题。通过严格评估,证明这些技术显著提高了任务准确度,并且与完整精度模型相当。该方法相对于8位整数MAC单元可以提升2倍硬件效率。

评估量化的大型语言模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-28T00:00:00Z

本文介绍了DS-Net,一种动态可整合网络概念,通过调整卷积滤波器数量提高硬件效率。DS-Net具有动态推理能力和两阶段训练方案,在ImageNet数据集上表现出比ResNet-50和MobileNet更高的计算性能和实际加速性能。

Dr2Net:动态可逆双重残差网络用于高效调优

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-08T00:00:00Z

SmoothQuant是一个免费的后训练量化解决方案,可用于大型语言模型,实现8位权重和激活的量化,提高硬件效率,降低硬件成本,是一个民主化LLMs的解决方案。

探索蛋白质语言模型的后训练量化

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-30T00:00:00Z
人工智能与效率

自2012年以来,训练神经网络达到ImageNet分类相同性能所需的计算量每16个月减少一半。与2012年相比,训练达到AlexNet水平的计算量减少了44倍,表明算法进步超过了传统硬件效率。

人工智能与效率

OpenAI
OpenAI · 2020-05-05T07:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码