量子位 ·

开源垂直领域高质量数据合成框架！专业QA自动生成，无需人工标注，来自上海AI Lab

💡 原文中文，约3200字，阅读约需8分钟。

📝

内容提要

上海AI实验室推出GraphGen框架，旨在解决垂直领域高质量问答数据稀缺的问题。该框架通过知识图谱引导和双模型协同，自动生成训练数据，降低人工标注成本，提升模型理解能力。用户可在OpenXLab平台上传文本，快速生成所需数据。

🎯

🔎

GraphGen框架通过知识图谱引导和双模型协同，显著提升了垂直领域模型的理解能力。这种方法不仅降低了人工标注的成本，还能生成高质量的问答数据，解决了传统合成数据在专业性和质量上的矛盾。

在OpenXLab平台上使用GraphGen时，用户需注意默认配置使用的是7B模型，适合试用。对于实际业务，建议使用更大规模的模型（如14B及以上），并开启难例挖掘功能，以获得更优质的合成数据。

GraphGen在合成数据时采用了多种客观指标进行质量评估，如MTLD、Uni和Rew等。这些指标帮助研究团队确保生成的数据在多样性和自然度上达到较高标准，从而增强模型的理解力，降低知识盲点。

❓

GraphGen框架旨在自动生成高质量的问答数据，解决垂直领域数据稀缺的问题。

用户可以在OpenXLab平台上传文本并填写SiliconCloud API Key，快速生成所需的训练数据。

GraphGen通过知识图谱引导和双模型协同机制，增强模型对垂直领域的理解能力。

GraphGen结合多跳邻域采样和风格控制生成技术，能够生成多样化且高质量的问答对。

人工标注成本高且合成数据的质量和专业性难以兼得。

测试表明GraphGen能降低模型的知识盲点，增强理解力，生成的数据质量较高。

🏷️