MongoDB ·

ORiGAMi：一种用于文档模型的机器学习架构

💡 原文英文，约900词，阅读约需3分钟。

📝

内容提要

MongoDB推出了ORiGAMi，一种基于Transformer的架构，专为处理半结构化数据（如JSON）设计。该模型通过将文档转化为键值对序列，简化了机器学习的数据处理，支持直接从原始文档进行预测，避免了复杂的预处理。ORiGAMi适合少量标记样本的训练，提升了用户分类等任务的灵活性和效率。

🎯

🔎

ORiGAMi通过直接处理半结构化数据，避免了传统机器学习中繁琐的预处理步骤。这种方法不仅节省了时间，还保留了数据的完整上下文，适合需要快速迭代和实时更新的应用场景。

ORiGAMi特别适合少量标记样本的训练，能够在用户分类等任务中提供灵活性。用户可以根据实际需求，快速调整模型以适应不同的文档结构和预测目标。

作为开源项目，ORiGAMi鼓励用户参与和贡献。这为开发者提供了一个良好的平台，可以分享应用案例和改进建议，从而推动文档模型机器学习的进一步发展。

❓

ORiGAMi是一种基于Transformer的机器学习架构，专为处理半结构化数据（如JSON）设计。

ORiGAMi通过将文档转化为键值对序列，支持直接从原始文档进行预测，避免复杂的预处理。

ORiGAMi能够在仅有200个标记样本的情况下进行有效训练。

ORiGAMi的初步应用集中在监督学习上，例如用户分段的自动分类。

用户可以通过命令行界面直接在MongoDB集合上训练模型并生成预测，无需编写代码。

ORiGAMi是开源的，用户可以在github.com/mongodb-labs/origami上找到相关资源。

🏷️