大型语言模型(LLM)在处理长上下文时会出现准确性下降的问题,称为“上下文衰退”。斯坦福研究表明,信息位置影响准确性,位置越靠中间,准确率越低。上下文衰退导致响应质量下降、计算成本增加和架构复杂性提升。解决方案包括外部记忆架构和语义缓存,以保持固定上下文窗口并动态检索相关信息。
个人知识库是外部记忆,通过检索实现,灵活快速,适合临时问答;微调是内部记忆,内化知识,专业精准,但成本高,适合高精度任务。
研究提出了检索增强决策变换器(RA-DT),通过外部记忆机制存储和检索经验,解决长剧集和稀疏奖励问题。在网格世界等环境中表现出色,展示了在复杂任务中的潜力。研究还探讨了多种上下文强化学习方法,提升了任务泛化能力和效率。
完成下面两步后,将自动完成登录并继续当前操作。