bang's blog ·

什么是多模态大模型

💡 原文中文，约3400字，阅读约需9分钟。

📝

内容提要

多模态大模型能同时处理多种形式数据输入输出，学习不同模态之间的关联和映射关系，发现隐藏在数据中的复杂跨模态模式。目前在图片理解方面效果较好，但在视频和音频理解方面仍有待改进。多模态大模型整体处于发展阶段，但在垂直场景下已能做出一些之前做不到或做不好的应用。

🎯

❓

多模态大模型能够同时处理文本、图像、视频和音频等多种数据形式，并学习不同模态之间的关联。

其主要特点是端到端处理，能够直接从原始数据中学习不同模态之间的关联，减少中间步骤的延迟。

目前多模态大模型在图片理解方面表现较好，能够进行OCR、物体理解等多种任务，但与专门优化的模型相比仍有差距。

视频理解主要通过将视频抽帧为静态图像进行分析，部分模型能够识别视频和音频，但整体能力仍需提升。

多模态大模型在音频理解方面能够识别语气、语调等细节，主要应用于实时语音对话和会议记录总结。

多模态大模型整体仍处于发展阶段，未来将针对特定场景进行训练，以实现更高水平的理解和生成能力。

🏷️