小红花·文摘

本文介绍了Xmodel-VLM，一种高效部署在消费级GPU服务器上的先进多模态视觉语言模型。通过严格训练，开发了一个10亿级的语言模型，采用了LLaVA模式用于模态对齐。经过多个基准测试，发现Xmodel-VLM的性能与较大模型相当。模型检查点和代码公开在GitHub上提供。