小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
逐步量化大型语言模型:将FP16模型转换为GGUF

量化技术可以缩小大型语言模型的体积,使其在个人电脑上运行成为可能。本文介绍了如何将FP16模型转换为GGUF格式,包括模型精度类型、使用huggingface_hub获取模型、量化步骤及上传到Hugging Face的方法。量化通过降低存储精度显著减少内存需求,使大型模型更易于使用。

逐步量化大型语言模型:将FP16模型转换为GGUF

MachineLearningMastery.com
MachineLearningMastery.com · 2026-01-08T11:00:38Z
遥遥领先的华为升腾384超节点VS英伟达NVL72:FP16算力压H100却逊GB200,三倍功耗换自主可控值不值?

华为的升腾384超节点在算力上部分超越英伟达的NVL72,但在稳定性和兼容性方面仍存在不足。该设备采用自主架构,支持大模型训练,但光模块故障率高,可能导致训练不稳定。整体来看,升腾384为国内算力中心提供了新选择,推动自主可控的信创产业发展。

遥遥领先的华为升腾384超节点VS英伟达NVL72:FP16算力压H100却逊GB200,三倍功耗换自主可控值不值?

硕鼠的博客站
硕鼠的博客站 · 2025-07-29T00:57:08Z

使用TensorRT部署YOLO模型的流程包括模型转换(PyTorch→ONNX→TensorRT)、集成TensorRT-YOLO工具和性能优化。最佳实践建议采用FP16量化、动态批处理和内存管理,以提高推理速度和精度。提供了Python和C++代码示例,帮助用户理解操作。

【推理加速】TensorRT C++ 部署YOLO11全系模型

gloomyfish
gloomyfish · 2025-05-22T12:45:02Z
浮点精度:理解大型语言模型中的FP64、FP32和FP16

我研究了推理API中的浮点精度(FP64、FP32、FP16)。浮点数遵循IEEE 754标准,确保系统间一致性。FP64提供最高精度,适合大型模型训练;FP32在精度与效率间取得平衡,广泛用于深度学习;FP16因速度和内存优势在推理中受到青睐。选择合适的精度对模型性能至关重要。

浮点精度:理解大型语言模型中的FP64、FP32和FP16

DEV Community
DEV Community · 2025-02-08T09:14:39Z
m4 mac mini本地部署ComfyUI,测试Flux-dev-GGUF的workflow模型10步出图,测试AI绘图性能,基于MPS(fp16),优点是能耗小和静音

M4 Mac Mini发布后,其性价比引发讨论。测试AI性能时,使用ComfyUI框架需安装Python 3.11及相关依赖。运行Flux-dev-GGUF工作流时,16G内存版本效率低,建议购买时避开。尽管速度慢,但能耗低且噪音小。

m4 mac mini本地部署ComfyUI,测试Flux-dev-GGUF的workflow模型10步出图,测试AI绘图性能,基于MPS(fp16),优点是能耗小和静音

刘悦
刘悦 · 2024-12-09T00:00:00Z

Triton 是一种基于 Python 的并行编程语言,专为高效编写 DNN 计算内核而设计。本文介绍了如何利用 Triton 实现高性能的 FP16 矩阵乘法,包括块级矩阵乘法、多维指针算术和 L2 缓存优化,并通过示例代码展示了在现代 GPU 硬件上优化矩阵乘法性能的方法。

【Triton 教程】矩阵乘法

HyperAI超神经
HyperAI超神经 · 2024-10-31T04:36:32Z

本文探讨了大型语言模型的量化技术,提出了三值化和低精度量化方法,强调性能与计算效率之间的平衡。研究表明,4位量化在大多数基准测试中表现优异,并提出了改进的量化策略以提高准确率和推理速度。

Spectra: 三元、量化和 FP16 语言模型的综合研究

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-17T00:00:00Z

TensorFlow Lite的XNNPack后端通过启用半精度推理,将ARM CPU上的浮点推理性能提高了一倍。这使得可以在旧款和低端设备上部署基于人工智能的功能。半精度(FP16)浮点数在易用性和性能之间提供了平衡,相比传统的FP32推理,速度提高了2倍。移动芯片中对FP16计算的硬件支持使得这一切成为可能。基准测试显示,在各种神经网络架构和移动设备上,接近2倍的速度提升。要在XNNPack中使用半精度推理,需要提供具有FP16权重和特殊元数据的浮点模型。XNNPack代理还提供了强制使用FP16推理的选项。未来的工作包括优化支持原生FP16算术的英特尔处理器的XNNPack。

半精度推理使设备端推理性能翻倍

The TensorFlow Blog
The TensorFlow Blog · 2023-11-29T18:00:00Z

文章讨论了如何通过GPU和TensorRT优化学员课程评论情感分析模型的推理性能。最初使用CPU时预测耗时较长,转向GPU后性能显著提升,使用FP16进一步优化,预测时间降至2ms,同时保持了精确度,最终选择该方案进行部署。

bert推理优化之路

李文举
李文举 · 2022-04-06T01:20:08Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码