小红花·文摘

本研究探讨了大语言模型中的提示压缩方法，以解决长提示带来的内存和推理成本问题。比较了硬提示和软提示的技术，分析其机制，并提出未来的优化方向，表明提示压缩能显著提高模型效率。