北京大学的林宙辰和徐鑫提出了MixCon,一种新型混合序列建模架构,结合Transformer层、Conba层和MoE组件,提升了计算和内存效率。实验显示,MixCon在长序列处理上优于现有模型,并在多个基准测试中表现出色。未来仍有改进空间。
完成下面两步后,将自动完成登录并继续当前操作。