小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
SSD:清华出品,可切换密集稀疏的大模型预训练加速方案 | ICML'24 - 晓飞的算法工程笔记

该论文研究了Transformer预训练中的激活稀疏性,提出了可切换稀疏-密集学习(SSD)方法,能够自适应切换稀疏和密集训练,从而提高预训练效率和推理速度。SSD在相同模型规模下实现了可比性能,降低了预训练成本,推理速度提升可达2倍。

SSD:清华出品,可切换密集稀疏的大模型预训练加速方案 | ICML'24 - 晓飞的算法工程笔记

晓飞的算法工程笔记
晓飞的算法工程笔记 · 2024-11-28T01:36:00Z

本研究提出了一种新颖的激活稀疏性度量标准PPL-$p\%$,并通过实验揭示了不同激活函数在训练时间和稀疏性方面的显著差异,为提升大型语言模型的效率和可解释性提供了依据。

Sparsity Principle: Towards Language Models with Greater Activation Sparsity

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-04T00:00:00Z

SmoothQuant是一种后训练量化解决方案,旨在提高大型语言模型(LLMs)的硬件效率,减少内存使用并加速推理。通过平滑激活异常值和优化权重,SmoothQuant实现了8位权重和激活量化,降低成本同时保持精度。相关方法如AdaDim和Agile-Quant进一步提升了模型性能和推理速度,解决了激活稀疏性问题,推动了LLMs在边缘设备上的应用。

旋转运行平滑:无训练激活平滑器用于准确的INT4推理

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-30T00:00:00Z

该研究设计了一种稀疏训练过程,通过考虑激活的最终位置来诱导半结构化激活稀疏性。在图像分类和目标检测任务中评估,结果显示该方法在ResNet18模型上实现了1.25倍的加速,仅有1.1%的最小精度降低。与结构化剪枝方法相结合,该方法在延迟和准确性之间取得了平衡,优于仅采用结构化剪枝技术的模型。

大规模神经架构的反向传播压缩:结构化激活剪枝

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-11-28T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码