小红花·文摘

Ollama Modelfile 完全指南：从零开始创建自定义量化 AI 大模型

人言兑 ·

大型语言模型能理解上下文吗？

Apple Machine Learning Research ·

开源Kronos量化模型解析：从K线语言化到AI交易底座的完整路径拆解与实战边界

极道 ·

在本地运行GPT-OSS的最佳方式

KDnuggets ·

使用Ollama进行应用开发的量化模型

MachineLearningMastery.com ·

本研究提出了ParetoQ框架，旨在解决量化模型大小与准确性之间的最佳比特宽度问题。研究发现2比特与3比特之间存在显著的学习转变，优化后的ParetoQ在准确性上优于以往方法，表明2比特量化在内存减少和加速方面具有潜力。

ParetoQ: The Scaling Laws in Extremely Low-bit LLM Quantization

BriefGPT - AI 论文速递 ·

本文介绍了一种深度神经网络（DNN）压缩的联合训练方法，旨在提高量化模型的预测准确性。实验表明，该自动化量化方法在保持准确性的同时，显著降低了计算和存储成本，并提升了速度和能效。此外，研究还探讨了量化模型在不同噪声场景下的鲁棒性，为实际应用提供了新思路。

ARQ：一种适用于准确且可证明鲁棒性的混合精度量化框架

BriefGPT - AI 论文速递 ·

量化模型在准确性和生成质量方面表现优异。Neural Magic对Llama 3.1系列进行了超过五十万次评估，结果显示量化模型在多个基准测试中恢复了99%以上的准确率，且对真实场景影响极小。量化降低了计算成本，加速了推理过程，证明了其在实际应用中的可靠性和高效性。

LLM量化效果评估：50万次实测后的发现

OneFlow深度学习框架 ·

该研究提出了一种创新的金融分析技术，结合机器学习和量化模型，以提高股票市场的选股和择时策略。研究展示了新算法和深度神经网络在不同市场条件下的预测精度，尤其在电力需求和太阳能电池板功率输出的预测中表现出色。

基于人工智能的能源算法交易：集成隐马可夫模型与神经网络

BriefGPT - AI 论文速递 ·

本文介绍了一种优化的 Transformer 硬件加速器，专为 AIoT 系统中的设备端时间序列预测设计。通过整数量化和量化感知训练，实现了 4 位和 6 位量化模型，性能接近 8 位模型。实验结果显示，4 位模型测试损失仅增加 0.63%，运行速度提升 132.33 倍，能耗降低 48.19 倍，证明了在嵌入式 IoT 设备上部署 Transformer 模型的可行性。