小红花·文摘

LLMLingua是一种新型提示压缩方法，通过预算控制和迭代算法实现高达20倍的压缩，同时保持语义完整性。该方法提升了大型语言模型的性能，降低了计算成本和延迟，压缩模型在准确性上可与原模型匹敌，为推断和扩展提供了新可能性。