小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
大型机器学习模型的半二次量化

本文介绍了一种新型量化技术——半二次量化(HQQ),该技术无需校准数据即可加速大型模型的量化。在处理Llama-2-70B模型时,HQQ的速度比常用的GPTQ快50倍,并且在内存使用上表现优异,适合有限资源下的高效部署。

大型机器学习模型的半二次量化

Dropbox Tech Blog
Dropbox Tech Blog · 2025-10-22T12:00:00Z

上个月,AI大模型推理框架vLLM发布v1.0版本,计算效率提升1.7倍,支持百亿参数模型的高效部署。hyper.ai官网上线了vLLM入门教程,提供多个优质公共数据集,助力研究与应用。

推理速度提升 1.7 倍,vLLM v1 版本发布!超 4k 标注步骤,首个多模态逐步推理基准 VRC-Bench 上线

HyperAI超神经
HyperAI超神经 · 2025-02-14T10:29:11Z

本文综述了生成式大型语言模型(LLMs)的高效部署方法,提出了一种新颖的路由框架以提高计算效率和任务性能,显著降低计算成本。同时,研究探讨了小语言模型在资源受限设备上的应用,提出混合方法以提升解码效率,并分析了LLMs的能源效率与推理性能,为可持续部署提供了见解。

朝着帕累托最优吞吐量的小语言模型服务

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-04T00:00:00Z

本文综述了生成式大型语言模型的高效部署方法,包括主动学习框架的网络流量分类、容错推理算法和插拔式语言模型框架。提出了新的评估指标LAAL,解决了长文本预测的低估问题,并探讨了高效模型HigeNet和基于LLM的离线框架LAMBO的优势,展示了其在实时决策和动态环境下的应用潜力。

ALTO: 一个高效的用于复合 AI 系统的网络协调器

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-07T00:00:00Z

本文介绍了一种基于梯度的后训练量化方法(GPTQ),用于深度神经网络的高效部署。该方法具有鲁棒性,并提出了设计更高效、可扩展的GPTQ方法的准则。同时,还提出了一种基于重要性的混合精度技术,这些准则和技术共同促进了已有的GPTQ方法和网络的性能改进,为设计可扩展且有效的量化方法开辟了新的可能。

深度神经网络低精度训练的更好调度

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-04T00:00:00Z

本文介绍了一种基于梯度的后训练量化方法(GPTQ),用于深度神经网络的高效部署。该方法具有鲁棒性,并提出了设计更高效、可扩展的GPTQ方法的准则。同时,还介绍了一种基于重要性的混合精度技术,这些准则和技术共同促进了已有的GPTQ方法和网络的性能改进,为设计可扩展且有效的量化方法开辟了新的可能。

通过一致性规则将量化感知训练推向全精度性能

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-21T00:00:00Z

本文介绍了一种基于梯度的后训练量化方法(GPTQ),用于深度神经网络的高效部署。该方法具有鲁棒性,并提出了设计更高效、可扩展的GPTQ方法的准则。同时,还提出了一种基于重要性的混合精度技术,促进了已有的GPTQ方法和网络的性能改进。

基于遗传算法的针对门控循环单元的定制化混合精度次 8 位量化方案

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-19T00:00:00Z

本文介绍了一种基于梯度的后训练量化方法(GPTQ),用于深度神经网络的高效部署。该方法具有鲁棒性,并提出了设计更高效、可扩展的GPTQ方法的准则。同时,还介绍了一种基于重要性的混合精度技术,这些方法和技术共同促进了GPTQ方法和网络性能的改进,为设计可扩展且有效的量化方法提供了新的可能性。

可训练的固定点量化用于在 FPGA 上加速深度学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-31T00:00:00Z

本文介绍了一种基于梯度的后训练量化方法(GPTQ),用于深度神经网络的高效部署。该方法具有鲁棒性,并提出了设计更高效、可扩展的GPTQ方法的准则。同时,还提出了一种基于重要性的混合精度技术,这些准则和技术共同促进了GPTQ方法和网络的性能改进。

一步前進與回退:克服損失感知量化訓練中的曲折問題

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-30T00:00:00Z

本文介绍了一种高效部署深度神经网络的梯度后训练量化方法(GPTQ),提出了设计更高效、可扩展的GPTQ方法的准则和基于重要性的混合精度技术,共同促进了GPTQ方法和网络的性能改进。

在 FPGA 上使用低精度 Minifloats 和整数进行后训练量化

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-11-21T00:00:00Z

本文介绍了一种基于梯度的后训练量化方法(GPTQ),用于深度神经网络的高效部署。该方法具有鲁棒性,并提出了设计更高效、可扩展的GPTQ方法的准则。此外,还介绍了一种基于重要性的混合精度技术,这些准则和技术共同促进了GPTQ方法和网络的性能改进,为设计可扩展且有效的量化方法开辟了新的可能。

基于梯度的训练后量化:对现状的挑战

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-08-15T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码