小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
Ollama Modelfile 完全指南:从零开始创建自定义量化 AI 大模型

本文介绍了如何在Ollama中使用Modelfile自定义量化模型。Modelfile是模型配置文件,定义模型来源、推理参数和对话模板。用户需准备GGUF格式的模型文件,并选择量化级别。文章详细说明了Modelfile的基本语法和指令,包括推理参数、对话格式和系统提示词的设置,并提供了创建和运行模型的实战案例及常见问题解决方案。

Ollama Modelfile 完全指南:从零开始创建自定义量化 AI 大模型

人言兑
人言兑 · 2026-04-25T12:44:20Z
大型语言模型能理解上下文吗?

大型语言模型(LLMs)在理解人类语言上下文方面表现优异。本文提出了一种上下文理解基准,包含四个任务和九个数据集,以评估模型的上下文理解能力。实验结果显示,预训练的密集模型在理解细微上下文特征上不及最新的微调模型,且量化模型在上下文学习中的表现也有所下降。

大型语言模型能理解上下文吗?

Apple Machine Learning Research
Apple Machine Learning Research · 2026-04-21T00:00:00Z
开源Kronos量化模型解析:从K线语言化到AI交易底座的完整路径拆解与实战边界

Kronos是一个开源量化模型,通过将K线数据语言化,改变了传统量化交易的思维方式。它将价格视为市场语言,利用tokenizer和Transformer模型提升市场分析能力。Kronos支持多资产并行预测,并具备微调能力,适应不同市场需求。尽管工具强大,用户仍需具备策略设计和风险管理能力,Kronos主要是帮助理解市场的工具。

开源Kronos量化模型解析:从K线语言化到AI交易底座的完整路径拆解与实战边界

极道
极道 · 2026-04-15T12:35:00Z
在本地运行GPT-OSS的最佳方式

本文介绍了如何在本地高效运行GPT-OSS 20B模型,使用llama.cpp和Open WebUI。通过简单的命令设置Python环境、安装必要的包、下载量化模型并启动服务器,用户可轻松获得现代聊天界面,实现本地推理。

在本地运行GPT-OSS的最佳方式

KDnuggets
KDnuggets · 2025-08-25T14:00:04Z
使用Ollama进行应用开发的量化模型

本文介绍了如何使用Ollama加载和运行量化的语言模型,特别是Hugging Face上的模型。量化通过降低模型参数的数值精度,使大型语言模型更轻便,便于在资源有限的环境中部署。文章提供了具体的命令行示例,展示如何运行量化模型并进行推理,强调了量化在提升模型性能和减少内存占用方面的优势。

使用Ollama进行应用开发的量化模型

MachineLearningMastery.com
MachineLearningMastery.com · 2025-05-29T12:00:04Z

本研究提出了ParetoQ框架,旨在解决量化模型大小与准确性之间的最佳比特宽度问题。研究发现2比特与3比特之间存在显著的学习转变,优化后的ParetoQ在准确性上优于以往方法,表明2比特量化在内存减少和加速方面具有潜力。

ParetoQ: The Scaling Laws in Extremely Low-bit LLM Quantization

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-04T00:00:00Z

本文介绍了一种深度神经网络(DNN)压缩的联合训练方法,旨在提高量化模型的预测准确性。实验表明,该自动化量化方法在保持准确性的同时,显著降低了计算和存储成本,并提升了速度和能效。此外,研究还探讨了量化模型在不同噪声场景下的鲁棒性,为实际应用提供了新思路。

ARQ:一种适用于准确且可证明鲁棒性的混合精度量化框架

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-31T00:00:00Z

量化模型在准确性和生成质量方面表现优异。Neural Magic对Llama 3.1系列进行了超过五十万次评估,结果显示量化模型在多个基准测试中恢复了99%以上的准确率,且对真实场景影响极小。量化降低了计算成本,加速了推理过程,证明了其在实际应用中的可靠性和高效性。

LLM量化效果评估:50万次实测后的发现

OneFlow深度学习框架
OneFlow深度学习框架 · 2024-10-24T00:03:19Z

该研究提出了一种创新的金融分析技术,结合机器学习和量化模型,以提高股票市场的选股和择时策略。研究展示了新算法和深度神经网络在不同市场条件下的预测精度,尤其在电力需求和太阳能电池板功率输出的预测中表现出色。

基于人工智能的能源算法交易:集成隐马可夫模型与神经网络

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-29T00:00:00Z

本文介绍了一种优化的 Transformer 硬件加速器,专为 AIoT 系统中的设备端时间序列预测设计。通过整数量化和量化感知训练,实现了 4 位和 6 位量化模型,性能接近 8 位模型。实验结果显示,4 位模型测试损失仅增加 0.63%,运行速度提升 132.33 倍,能耗降低 48.19 倍,证明了在嵌入式 IoT 设备上部署 Transformer 模型的可行性。

KWT-Tiny:RISC-V 加速,嵌入式关键词检测 Transformer

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-22T00:00:00Z

本文介绍了使用TensorRT加速PyTorch量化模型的方法,包括量化模型导出为ONNX格式,修复ONNX模型图以适应TensorRT解析器,并构建为TensorRT引擎。对比了FP16和INT8 ResNet18 TensorRT引擎的推理延迟和准确性。

PyTorch Eager 模式量化的 TensorRT 加速

Lei Mao's Log Book
Lei Mao's Log Book · 2024-05-24T07:00:00Z
FastEmbed:快速轻量的嵌入生成 - Nirant Kasliwal | 向量空间讲座

FastEmbed是Nirant Kasliwal开发的快速轻量嵌入生成工具,旨在提高嵌入模型的速度和效率。它支持多模态嵌入,优化CPU性能,并通过量化模型减少内存消耗。Nirant分享了在生产环境中使用嵌入的简化和高效性技巧。

FastEmbed:快速轻量的嵌入生成 - Nirant Kasliwal | 向量空间讲座

Qdrant - Vector Database
Qdrant - Vector Database · 2024-01-09T11:38:59Z

清微智能与飞桨完成Ⅲ级兼容性测试,验证了30个量化模型的兼容性。双方已完成框架层面的适配和数十个模型的测试验证。

清微智能视觉芯片与飞桨完成三级兼容性测试,助力行业智能化升级

百度大脑
百度大脑 · 2023-10-27T10:04:23Z

本文介绍了两个国产开源LLM的本地部署,ChatGLM-6B和MOSS。MOSS对显存要求高,推理速度慢,需要使用量化模型和多卡加速。模型采用GNU AFFERO GENERAL PUBLIC LICENSE许可证,可以免费商用。

LLM探索:环境搭建与模型本地部署

dotNET跨平台
dotNET跨平台 · 2023-05-21T00:02:51Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码