蝈蝈俊 蝈蝈俊 -

GGUF 模型 - 蝈蝈俊

在HuggingFace上,我们时不时就会看到GGUF后缀的模型文件,它是如何来的?有啥特点? https://huggingface.co/TheBloke/Llama-2-7B-Chat-GGUF GGUF 由来 Georgi Gerganov(https://github.com/ggerga

GGUF是一种二进制模型文件格式,专为在CPU上快速加载和保存模型而设计。它采用多种技术来保存模型,包括紧凑的二进制编码格式、优化的数据结构和内存映射,使模型加载和使用更快速、资源消耗更低。GGUF还支持模型量化,将模型权重量化为较低位数的整数,降低模型大小和内存消耗,提高计算效率,同时平衡性能和精度。GGUF在HuggingFace上已有大量应用,文件名格式以'Q'开头表示量化位数,后跟特定变体,这些变体根据量化方案的不同而命名,影响模型的大小、性能和精度。

CPU GGUF 二进制模型文件格式 快速加载 模型量化

相关推荐 去reddit讨论