小红花·文摘

该研究评估了大型语言模型在不同任务和环境下的解码性能，提出了AdaInfer算法以节省计算资源，并引入增强的线性化语言模型和MoICE方法以提升上下文感知能力和效率。此外，研究提出共享注意力机制和LiSA方案，显著减少冗余计算，同时保持高质量响应。