系统 2 关注力(您可能也需要)
原文中文,约300字,阅读约需1分钟。发表于: 。为了改善 Transformers 大型语言模型中软关注对上下文的无关信息进行纳入对下一个标记生成产生副作用的问题,我们引入了系统 2 关注(S2A),它利用语言模型推理和遵循指令来决定应该关注什么,并通过重构上下文来提取相关部分,然后关注这个重构上下文来引出最终的响应。在包含观点或无关信息、问答、数学问题和长文生成的三个任务上实验证明,S2A...
本文介绍了一种名为Attention Transition的新技术,能够在保持较小规模的情况下,实现更好的上下文理解。实验结果在XSum上取得显著改进。