本研究提出了一种新的seqKAN网络架构,旨在提高序列处理网络的解释性和可控性。该架构在复杂物理问题的插值和外推任务中表现优异,尤其在外推数据集上显著优于其他架构,具有更高的透明性。
本研究提出了一种新方法SepLLM,通过将段落信息压缩为分隔符,解决了大语言模型在计算和推理速度上的挑战。实验表明,该方法显著降低了内存消耗,提高了大规模序列处理的效率,推动了自然语言处理应用的发展。
本研究提出了Mamba模型,基于选择性机制的随机线性递归模型在输入控制下显著提高了推断速度和序列处理能力。通过与Transformer的比较,展示了状态空间模型(SSMs)在语言和音频等领域的优越性,并提出了多头状态空间架构(MH-SSM)作为优化序列数据处理的替代方案。
本文介绍了一种新型模型RWKV,结合了Transformer的并行训练和RNN的高效推理,采用线性注意机制,具备良好的可扩展性。RWKV在序列处理任务中表现优异,尤其在时间序列任务中展现了低延迟和高效内存使用的优势。
该研究提出了一种用于序列处理的机制,通过替换循环门中的乘法和 Sigmoid 函数为加法和 ReLU 激活函数,能够在更低计算成本下维持长期记忆,捕捉到序列数据的长期依赖关系,并且支持同态加密人工智能应用。
通过分割长序列并对齐块间信息,提出了一个简单的框架,使预训练Transformer能够处理更长的序列。通过对块中的起始和结束标记嵌入进行对齐,提取块间语义信息。通过双重更新方案,将Transformer的解码器视为环境,并以下游性能指标作为奖励来评估隐藏状态选择动作。实证结果表明,取得了有效的改进。
完成下面两步后,将自动完成登录并继续当前操作。