本文介绍了一种名为HOMER的无需训练的方案,使用分而治之的算法划分长输入为可管理的块,并采用逐层合并的分层策略解决大语言模型的上下文限制问题,同时提出了优化的计算顺序以提高性能和内存效率。
该研究使用Feudal HRL算法,通过紧密的表示发现目标表示的发展机制,并同时学习目标表示和分层策略。在复杂的导航任务上评估,结果表明所学到的表示是可解释的、可传递的,并且可以实现高效的学习。
完成下面两步后,将自动完成登录并继续当前操作。