本文介绍了在高流量的大型语言模型应用中构建推理缓存的方法,以降低延迟和API成本。文章指出,重复查询会浪费时间和金钱,并提出了精确匹配缓存和语义缓存的实现方案。通过使用缓存,可以显著减少API调用次数,从而节省成本。精确缓存适用于完全相同的查询,而语义缓存则处理意义相似的查询,提升效率。
本研究提出了一种新的$ ext{ε}$-先进颜色传递($ ext{ε}$-ACP)算法,旨在解决现有算法在识别不可区分对象时的精确匹配问题。该算法通过允许潜在值的偏差,有效利用不完全匹配的不可区分性,实验结果表明其近似误差接近零,展现了实际应用潜力。
该文介绍了一种新型的提取攻击——Model Leeching,可以从大型语言模型中提取特定任务知识到一个减少参数的模型。作者通过从ChatGPT-3.5-Turbo中提取任务能力来证明攻击的有效性,精确匹配相似度达到73%。
完成下面两步后,将自动完成登录并继续当前操作。