机器之心 ·

算法系统协同优化，vivo与港中文推出BlueLM-V-3B，手机秒变多模态AI专家

💡 原文中文，约6200字，阅读约需15分钟。

📝

内容提要

AIxiv报道vivo与香港中文大学联合研发的BlueLM-V-3B多模态模型，该模型专为移动平台优化，解决了内存和计算能力限制，支持高分辨率图像处理，提升用户体验。

🎯

🔎

BlueLM-V-3B的推出标志着多模态大语言模型在移动平台上的重要进展。随着手机计算能力的提升，未来更多复杂的AI应用将能够在手机上实现，极大地提升用户的日常体验。用户可以期待更智能的助手，能够处理图像、文本和语音等多种输入形式，满足多样化的需求。

尽管BlueLM-V-3B在内存和计算能力上进行了优化，但在实际应用中仍需关注硬件的限制。不同手机型号的性能差异可能影响模型的表现，开发者需要针对特定硬件进行进一步的优化。此外，随着技术的不断进步，如何保持模型的高效性与准确性将是未来的挑战。

BlueLM-V-3B采用的动态分辨率方案有效解决了图像过度放大的问题，这一创新不仅提升了图像处理的效率，也为其他多模态模型的设计提供了借鉴。未来，类似的技术改进可能会在更多AI应用中得到应用，推动整个行业的进步。

❓

BlueLM-V-3B模型专为移动平台优化，解决了内存和计算能力限制，支持高分辨率图像处理，且在性能上达到了SOTA水平。

BlueLM-V-3B通过算法与系统协同设计，采用动态分辨率方案和token降采样，降低内存使用并提升推理速度。

BlueLM-V-3B在移动端部署表现优异，内存需求仅为2.2GB，能够在约2.1秒内完成高分辨率图像的编码。

BlueLM-V-3B的训练数据涵盖了250万条图像-文本对，来自开源数据集和内部数据，增强了模型能力。

BlueLM-V-3B在多个测评集上表现出色，特别是在OpenCompass基准测试中取得了66.1的高分，超越了参数规模更大的模型。

未来将继续提升BlueLM-V-3B的可扩展性，探索先进算法以优化性能和可用性，适应更多手机设备。

🏷️