Orchid:灵活和数据相关的序列建模卷积
原文中文,约2400字,阅读约需6分钟。发表于: 。Orchid 是一种新颖的架构,通过整合一种新的数据相关卷积机制,重新定义序列建模,以实现表达能力与计算效率之间的平衡。通过在核上采用专用条件神经网络,Orchid 核心部分是数据相关的卷积层,它根据输入数据动态调整其核。通过门控操作和动态的数据相关卷积核,Orchid 可以在保持效率和准线性可扩展性的同时捕捉长程依赖和上下文学习。我们在多个领域对 Orchid...
Orchid是一种新颖的架构,通过整合一种新的数据相关卷积机制,平衡了表达能力和计算效率。它在保持效率和线性可扩展性的同时,捕捉了长距离依赖和上下文学习。Orchid在较小的模型尺寸和处理更长序列长度方面优于传统的基于注意力的架构,如BERT和Vision Transformers。这代表了序列建模中高效可扩展深度学习模型的重要进展。