海豚:长上下文作为能效高的设备内语言模型的新模式
原文中文,约500字,阅读约需2分钟。发表于: 。本研究解决了设备内语言模型在处理长上下文时的高能耗和延迟问题,提出了海豚模型,这是一种新颖的解码器-解码器架构。通过将长文本上下文视为一种独特的模式,海豚模型实现了十倍的能效提升和五倍的延迟减少,同时保持响应质量,对提高资源受限环境中的AI技术尤为关键。
本文介绍了现代大型语言模型(LLMs)在处理较长序列时的上下文长度外推方法,并提出了一种修改位置编码基础的截断策略。作者通过广泛调研发现线性标度是扩展上下文长度的最佳方法,并且使用更长的标度在评估时可以获得进一步的收益。作者还发布了三个新的13B参数长上下文模型,并提供了复制结果的代码。