DEV Community ·

初学者在LangChain中入门多模态性的指南

💡 原文英文，约1800词，阅读约需7分钟。

📝

内容提要

AI模型逐渐支持图像、音频和视频等多种数据类型的处理，这种能力称为多模态性。在LangChain中，多模态性正在改变开发者构建智能系统的方式，尽管工具尚未完全标准化，但支持正在快速增长。开发者可以通过混合文本和图像等输入，提升与模型的交互。

🎯

🔎

多模态性使得开发者能够通过图像、音频和视频等多种输入形式与AI模型进行更自然的交互。这种能力在产品推荐、医疗助手和客服聊天机器人等实际应用中具有重要价值，能够提升用户体验和系统的智能化水平。

目前，LangChain在多模态支持方面仍在发展中，主要体现在聊天模型、嵌入模型和向量存储三个领域。虽然聊天模型已支持图像和文件输入，但嵌入模型和向量存储仍仅限于文本，未来需要关注其更新以适应多模态需求。

在选择多模态模型时，开发者应仔细检查支持的输入类型和输出格式。由于不同模型的支持程度不一，确保所选模型能够处理所需的多模态输入至关重要。此外，使用外部工具生成多模态嵌入也是一种可行的解决方案。

❓

多模态性是指处理多种类型输入数据的能力，如文本、图像、音频和视频。在LangChain中，多模态性正在改变开发者构建智能系统的方式，支持正在快速增长。

LangChain的多模态支持主要体现在聊天模型、嵌入模型和向量存储三个领域。

在LangChain中使用多模态聊天模型时，可以通过内容块发送文本、图像等输入，具体格式需参考模型的文档。

目前LangChain的嵌入模型仅支持文本输入，未来预计会支持多模态嵌入。

在选择多模态模型时，需检查支持的输入类型和输出格式，以确保模型能够满足需求。

目前LangChain的向量存储仅支持文本嵌入，未来需要扩展到图像、音频和视频。

🏷️