💡
原文英文,约2000词,阅读约需8分钟。
📝
内容提要
mcdse-2b-v1是一种新型多语言嵌入模型,支持灵活的视觉文档检索。它通过自然语言查询页面截图,整合表格和图像信息,省去传统OCR步骤。该模型在多语言上表现优异,支持将维度从1536缩减至256,保持高质量检索。训练数据来自24000个PDF文档,经过多次优化以适应不同的内存和速度需求。
🎯
关键要点
- mcdse-2b-v1是一种新型多语言嵌入模型,支持灵活的视觉文档检索。
- 该模型通过自然语言查询页面截图,整合表格和图像信息,省去传统OCR步骤。
- 模型在多语言上表现优异,支持将维度从1536缩减至256,保持高质量检索。
- 训练数据来自24000个PDF文档,经过多次优化以适应不同的内存和速度需求。
- 模型使用Matryoshka Representation Learning,能够有效缩放嵌入维度。
- 在二值化方面表现出色,768维二进制向量保持99%的检索质量。
- 模型在vLLM上进行快速推理,适合大规模生产使用。
- 训练过程中使用低秩适配器(LoRA)和多语言文档语料库。
- 数据集由24000个PDF文档自动抓取而成,涵盖广泛主题。
- 模型在不同语言的训练顺序上进行了多次实验,以优化性能。
- 评估数据集专门设计用于基准测试,确保训练和评估数据集之间没有重叠。
- 模型在256维度上表现出色,整体平均提升4%。
- 二进制嵌入在内存消耗和搜索速度上具有显著优势。
- 模型在ShiftProject数据集上的表现有所波动,显示出对不同查询类型的适应能力。
- 模型的部署和使用说明提供了详细的操作步骤。
- 作者对模型的训练过程和未来改进方向表示乐观,鼓励用户进行测试。
➡️