使用 OpenVINO™ GenAI C++部署大语言模型 | 轻松构建一个Chat实例

💡 原文中文,约6100字,阅读约需15分钟。
📝

内容提要

OpenVINO™ 2024.2发布了OpenVINO.GenAI工具,简化了大型语言模型的部署过程。该工具允许开发人员在自己的计算机上运行模型。文章提供了下载、转换和量化模型的逐步指南,使用OpenVINO™ GenAI。还包括模型推理的代码和在CPU上的性能演示。

🎯

关键要点

  • OpenVINO™ 2024.2发布了OpenVINO.GenAI工具,简化了大型语言模型的部署过程。
  • OpenVINO.GenAI允许开发人员在自己的计算机上运行模型,适合技术有限的开发者。
  • OpenVINO™工具套件基于oneAPI开发,适用于各种英特尔平台,帮助用户快速部署高性能应用。
  • 新版本支持更多大型语言模型的压缩技术,提高推理效率和性能。
  • 文章提供了使用OpenVINO.GenAI的逐步指南,包括模型下载、转换和量化。
  • 开发环境要求包括Windows 11和Visual Studio 2022。
  • 模型下载使用国内的魔塔社区,提供了Qwen1.5-7B-Chat-GPTQ-Int4和TinyLlama-1.1B-Chat-v1.0的下载命令。
  • 使用Optimum Intel工具将模型转换为OpenVINO™的IR格式,并进行INT4量化。
  • OpenVINO™ GenAI的安装与配置与基础版本一致,提供了详细的下载和环境变量设置步骤。
  • 模型推理代码简洁,封装了前后处理流程,便于开发者使用。
  • 演示了在本地CPU上运行模型的效果,展示了CPU和内存的使用情况。
  • 总结了使用OpenVINO.GenAI运行大型语言模型的效果,并邀请开发者联系解决问题。
➡️

继续阅读