小红花·文摘

本文探讨了大型语言模型（LLM）在处理长篇内容时的性能提升方法，包括查询引导压缩器（QGC）和上下文压缩技术。这些方法显著降低了推理成本和时间，同时提高了模型的准确性和效率。新技术LLoCO和LeanContext使LLM在长上下文问答任务中表现优异，减少了内存占用和计算成本，为未来研究提供了重要见解。