小红花·文摘

量化感知训练的jina-embeddings-v4

Jina AI ·

美团开源了INT8无损量化的DeepSeek R1模型，提升了在A100等老显卡上的部署能力。通过分块和通道量化技术，模型在精度上几乎无损，推理吞吐量提高了50%。该模型已在Hugging Face发布，方便用户使用。

老显卡福音！美团开源首发INT8无损满血版DeepSeek R1

量子位 ·

SmoothQuant是一种后训练量化解决方案，旨在提高大型语言模型的硬件效率，支持8位和4位权重量化，减少内存并加速推理。通过激活量化感知和混合数据格式，SmoothQuant+实现了无损量化，显著提升了吞吐量和准确度。同时，Agile-Quant框架和I-LLM方法进一步优化了边缘设备上的推理速度和计算效率，推动了移动AI的研究与应用。

移动量化：适用于设备语言模型的移动友好量化

BriefGPT - AI 论文速递 ·