DEV Community ·

视觉多语言：介绍 mcdse-2b

💡 原文英文，约2000词，阅读约需8分钟。

📝

内容提要

mcdse-2b-v1是一种新型多语言嵌入模型，支持灵活的视觉文档检索。它通过自然语言查询页面截图，整合表格和图像信息，省去传统OCR步骤。该模型在多语言上表现优异，支持将维度从1536缩减至256，保持高质量检索。训练数据来自24000个PDF文档，经过多次优化以适应不同的内存和速度需求。

🎯

🔎

mcdse-2b-v1模型在多语言检索方面表现出色，尤其是在意大利语、西班牙语、英语、法语和德语等语言上。其训练数据来自24000个PDF文档，涵盖广泛主题，能够有效处理不同语言的查询。这使得该模型在全球化应用中具有较强的适应性，适合多语言环境下的文档检索需求。

该模型在二进制嵌入方面表现优异，768维的二进制向量能够保持99%的检索质量，同时显著降低内存消耗。这种高效的存储方式使得在大规模数据处理时，能够以更低的成本实现快速检索，适合需要处理海量文档的应用场景。

mcdse-2b-v1采用了低秩适配器（LoRA）和Matryoshka Representation Learning，允许根据不同的内存和速度需求灵活调整嵌入维度。这种灵活性使得模型能够在不同硬件条件下优化性能，用户可以根据实际需求进行调整，提升使用体验。

❓

mcdse-2b-v1是一种多语言嵌入模型，支持通过自然语言查询页面截图，实现灵活的视觉文档检索。

该模型整合表格、图像和文本信息，省去传统的OCR步骤，将所有信息编码为单一的嵌入向量。

模型在意大利语、西班牙语、英语、法语和德语等多语言上表现优异，能够有效处理不同语言的查询。

模型的训练数据来自24000个自动抓取的PDF文档，涵盖广泛主题。

模型使用Matryoshka Representation Learning，支持将嵌入维度从1536缩减至256，同时保持高质量检索。

模型在768维二进制向量上保持99%的检索质量，且在内存消耗和搜索速度上具有显著优势。

🏷️