本研究提出了一种新的seqKAN网络架构,旨在提高序列处理网络的解释性和可控性。该架构在复杂物理问题的插值和外推任务中表现优异,尤其在外推数据集上显著优于其他架构,具有更高的透明性。
本研究提出了一种新方法SepLLM,能够有效压缩段落信息,减少冗余,显著降低内存消耗,并提高大规模序列处理的效率,推动自然语言处理应用的发展。
该研究提出了一种用于序列处理的机制,通过替换循环门中的乘法和 Sigmoid 函数为加法和 ReLU 激活函数,能够在更低计算成本下维持长期记忆,捕捉到序列数据的长期依赖关系,并且支持同态加密人工智能应用。
通过分割长序列并对齐块间信息,提出了一个简单的框架,使预训练Transformer能够处理更长的序列。通过对块中的起始和结束标记嵌入进行对齐,提取块间语义信息。通过双重更新方案,将Transformer的解码器视为环境,并以下游性能指标作为奖励来评估隐藏状态选择动作。实证结果表明,取得了有效的改进。
完成下面两步后,将自动完成登录并继续当前操作。