💡
原文日文,约1800字,阅读约需5分钟。
📝
内容提要
卓世科技开发了中文提示词压缩技术,通过定义提示结构、对齐模型分布、分层压缩等方法,优化提示设计,提高模型响应效率,降低推理成本,适用于垂直领域,保留专业词汇。
🎯
关键要点
- 提示工程通过设计输入提示引导模型输出期望结果。
- 超长prompt增加推理成本和时间,限制实时应用场景的适用性。
- 卓世科技开发的中文提示词压缩技术旨在降低推理成本和提升推理速度。
- 压缩技术的主要思路包括定义长prompt结构、对齐模型分布和分层压缩。
- 使用小语言模型估计长prompt各部分的重要性,缩小大语言模型和小语言模型的分布差距。
- 对documents/demonstrations部分进行示例层次和重排序的压缩。
- 用户可自定义词语层次的压缩率,确保语义完整。
- 结合专业词汇表进行分词,保留垂直领域内的专业词汇。
- 压缩后的prompt可输入至大语言模型中,得到响应。
- 该技术方案适配中文词语粒度,避免丢失专业词汇,提升推理效率。
➡️