💡
原文英文,约2600词,阅读约需10分钟。
📝
内容提要
Dropbox Dash整合文件、消息和团队知识,利用DSPy优化相关性判断,提升模型的可靠性和成本效益。通过系统化调整提示,减少与人类评分的偏差,确保输出格式有效,支持大规模数据标注和模型适应。
🎯
关键要点
- Dropbox Dash将文件、消息和团队知识整合在一起,提供基于公司上下文的有用答案。
- 相关性判断是系统的核心能力,影响多个流程,如排名、训练数据生成和离线评估。
- 通过系统化优化,减少与人类评分的偏差,提高模型的可靠性和成本效益。
- 使用DSPy框架优化提示,转变为可重复的优化循环,提升相关性判断的质量。
- 评估相关性判断的标准是与人类评分的偏差,使用归一化均方误差(NMSE)进行测量。
- 在大规模使用中,选择了更便宜的gpt-oss-120b模型,并通过DSPy优化提示以适应新模型。
- DSPy的GEPA优化器通过分析模型与人类的分歧,生成反馈以改进相关性判断。
- 优化后的提示使NMSE降低了45%,提高了与人类评分的一致性,减少了模型适应时间。
- 在操作可靠性方面,优化后的模型能够生成有效的JSON输出,减少了格式错误的发生。
- 通过小范围的增量改进,保持了高性能模型的稳定性,同时提升了与人类评分的对齐度。
- DSPy使得相关性评分的优化成为一个可重复的循环,确保在模型演变中保持一致性和可靠性。
🏷️
标签
➡️