超详细!!传统NLP算法结合大模型私有化部署简易知识问答体系工程实践

💡 原文中文,约4300字,阅读约需11分钟。
📝

内容提要

京东物流在其私域体系中构建了问答系统,面临数据隐私、回答准确性和法律风险等挑战。通过数据清洗和增强,结合BM25和向量召回模型,最终生成答案,以提升用户体验并避免“答非所问”的情况。

🎯

关键要点

  • 京东物流在私域体系中构建了问答系统,面临数据隐私、回答准确性和法律风险等挑战。

  • 项目背景中提到需要根据用户的query匹配问答库中最相似的知识,并整合成标准回答。

  • 数据清洗阶段需要将业务方提供的问答数据整理成指定格式,以便于模型训练。

  • 数据增强通过生成能力对训练数据进行改写,增加数据量和多样性。

  • 模型训练分为召回和精排两个部分,结合BM25和向量召回方法。

  • BM25召回方法快速且可解释,但缺乏语义理解,向量召回弥补了这一不足。

  • 精排模型对候选结果进行进一步打分,以提高回答的准确性。

  • 输出阶段通过大模型对选出的QA pair进行二次改写,生成最终答案。

  • 设置拒答逻辑以避免模型返回不相关的答案。

  • 效果评估展示了finetune前后模型效果的明显提升,正负样本得分分布更为明显。

延伸问答

京东物流的问答系统面临哪些主要挑战?

京东物流的问答系统面临数据隐私、回答准确性和法律风险等挑战。

如何进行数据清洗以支持模型训练?

数据清洗需要将业务方提供的问答数据整理成指定格式,以便于模型训练,形成query-answer对。

数据增强的目的是什么?

数据增强的目的是增加数据量和多样性,以提高模型命中正确答案的概率。

BM25和向量召回模型的区别是什么?

BM25是一种传统的文档检索方法,速度快但缺乏语义理解,而向量召回模型则能理解文本语义,但可解释性较弱。

模型训练的主要步骤有哪些?

模型训练主要分为召回、精排和改写三个步骤。

如何评估问答系统的效果?

效果评估通过对比finetune前后的正负样本得分分布,观察模型效果的提升。

➡️

继续阅读