BriefGPT - AI 论文速递 ·

选择性-p：自监督任务无关提示压缩的真实性和可迁移性

💡 原文中文，约1300字，阅读约需3分钟。

📝

内容提要

本文介绍了多种压缩大型语言模型（LLM）的方法，包括基于提示的学习、知识转移和上下文感知的提示压缩。这些方法旨在提高模型的预测准确性和推理效率，降低计算成本，同时保留关键信息。研究表明，这些技术能有效提升小规模模型的性能，并在多个数据集上取得显著改进。

🎯

🔎

本文探讨的多种压缩技术，如LLM-PO和RetriKT，展示了在没有大量数据和梯度访问的情况下，如何有效提升小规模模型的性能。这些方法不仅降低了计算成本，还能在实际应用中提高推理效率，适合资源有限的场景。

上下文感知的提示压缩技术通过句子编码器提升了压缩效果，尤其在处理短上下文时表现优异。这一特性使得模型在快速响应和准确性之间取得更好的平衡，适合需要实时反馈的应用场景。

LanguaShrink框架利用心理语言学原理实现任务无关的提示压缩，压缩比高达26倍。这一创新不仅显著减少了提示长度，还提高了推理速度，适合需要高效处理大量信息的应用，如聊天机器人和智能助手。

❓

通过使用精确的提示信息作为输入，可以提高压缩模型的预测准确性，平衡其准确性和效率。

LLM-PO方法在没有梯度访问的情况下，通过维护基于文本的计划，能够有效解决交互式任务，且成功率高于基于上下文的学习基线。

RetriKT方法通过构建知识存储库，从大规模预训练语言模型中提取知识，显著提升小规模模型的性能。

Nano-Capsulator框架减少81.4%的提示长度，提高4.5倍的推理速度，并降低80.1%的预算开销。

SelfCP方法通过使用LLMs自身将长提示压缩为紧凑的虚拟标记，有效替代原始提示。

LanguaShrink框架实现任务无关的提示压缩，压缩比可达26倍，并提高了1.43倍的端到端延迟性能。

🏷️