小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
PyTorch 2.8 发布,英特尔 CPU 性能更佳,助力 LLM 推理

PyTorch 2.8 发布,提升了英特尔 CPU 性能,专注于大型语言模型的高性能量化推理。新增 A16W8、DA8W8 和 A16W4 模式,优化 AMX 微内核,改善特定条件下的性能。同时,提供对英特尔 XCCL GPU 的实验性支持,并增强了 PyTorch CPP 扩展 API。

PyTorch 2.8 发布,英特尔 CPU 性能更佳,助力 LLM 推理

实时互动网
实时互动网 · 2025-08-07T01:56:02Z

本研究系统评估了量化推理模型,发现W8A8或W4A16量化可实现无损,但较低比特宽度会影响准确性。模型大小、来源和任务难度是影响性能的关键因素,适当调整模型规模或推理步骤可提升性能。

Does Quantization Impair Inference Capability? An Empirical Study on Quantized Inference Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-07T00:00:00Z
ggml教程|mnist手写体识别量化推理

本文介绍了如何使用ggml进行MNIST手写体识别的量化推理。首先,使用PyTorch训练全连接神经网络并保存模型。然后,通过ggml对模型进行量化,生成gguf格式文件。最后,使用C++实现模型推理,包括加载模型、前向传播和结果预测,强调模型结构和量化细节,并提供代码示例和运行步骤。

ggml教程|mnist手写体识别量化推理

plus studio
plus studio · 2023-11-12T18:49:00Z

本文介绍了一种在芯片上进行硬件感知的混合精度量化(OHQ)框架,通过构建量化感知管道和基于掩码的量化估计技术,实现了从硬件感知的混合精度量化。OHQ 在不需要额外计算设备和数据访问的情况下,对各种体系结构和压缩比率进行了量化推理,为 ResNet-18 和 MobileNetV3 分别实现了 70%和 73%的准确率,并且相较于部署中的 INT8,减少了 15~30%的延迟。

OHQ: 在芯片上的硬件感知量化

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-09-05T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码