京东科技开发者 ·

超详细！！传统NLP算法结合大模型私有化部署简易知识问答体系工程实践

💡 原文中文，约4300字，阅读约需11分钟。

📝

内容提要

京东物流在其私域体系中构建了问答系统，面临数据隐私、回答准确性和法律风险等挑战。通过数据清洗和增强，结合BM25和向量召回模型，最终生成答案，以提升用户体验并避免“答非所问”的情况。

🎯

🔎

在构建问答系统时，数据隐私是首要考虑因素。京东物流通过自建算法体系，确保用户数据不外流，避免法律风险。这一做法不仅保护了用户隐私，也增强了用户对平台的信任，适用于其他行业在处理敏感数据时的参考。

京东物流采用BM25和向量召回的双重策略来提升问答系统的准确性。BM25提供快速且可解释的检索，而向量召回则弥补了语义理解的不足。这种结合方式可以为其他企业在构建复杂问答系统时提供借鉴，尤其是在面对多样化用户提问时。

数据增强在模型训练中起到了关键作用，尤其是在数据量不足的情况下。通过生成新的问答对，京东物流不仅提高了模型的训练效果，还增强了系统对复杂提问的应对能力。这一策略可以帮助其他企业在资源有限的情况下，提升模型的泛化能力。

❓

京东物流的问答系统面临数据隐私、回答准确性和法律风险等挑战。

数据清洗需要将业务方提供的问答数据整理成指定格式，以便于模型训练，形成query-answer对。

数据增强的目的是增加数据量和多样性，以提高模型命中正确答案的概率。

BM25是一种传统的文档检索方法，速度快但缺乏语义理解，而向量召回模型则能理解文本语义，但可解释性较弱。

模型训练主要分为召回、精排和改写三个步骤。

效果评估通过对比finetune前后的正负样本得分分布，观察模型效果的提升。

🏷️