本研究解决了不同设计选择(如权重共享、等变性和局部滤波器)对神经网络样本效率的影响不明确的问题。通过统计学习理论,研究提供了对单隐藏层网络样本复杂度的界定,发现等变性的益处直接体现在界限中,并为一种池化操作的等变网络获得了无维数的界限。结果表明,样本复杂度在空间和频率域中过滤器参数化之间存在权衡。
本文探讨了对称嵌入网络(SENs)在复杂对称性数据中的应用,提出了多种提取和评估神经网络对称性的方法。研究表明,学习到的对称性质量与网络的深度和参数数量相关。通过构建多样化的模型集合和引入对称性检测框架,提升了分类性能和模型的泛化能力。这些方法在无监督学习和生成模型中表现良好,有效提高了模型的鲁棒性和性能。
本文介绍了一种基于生物启发的脉冲神经网络(SNN)模型,该模型结合突触可塑性和动态阈值实现监督学习,表现出良好性能。研究探讨了多种学习规则及其在图像、音频等领域的应用,强调生物基础机制在提升深度学习模型性能中的重要性。新模型在处理复杂时空任务时展现出优越性,推动了神经形态计算的发展。
本文提出了一种新颖的负载均衡与局部性结合的路由策略,改进了PanGu-Sigma模型,训练时间减少12.68%至22.24%。LocMoE+通过量化和自适应路由提高训练效率,专家处理的令牌数量减少60%。StableMoE方法有效解决了路由波动问题,动态专家选择框架提升了计算效率,优化了复杂任务中的资源分配能力。
本研究提出了基于概念模型的鲁棒性和输出一致性的研究,并探讨了恶意攻击方式和基于对抗训练的防御机制。研究发现,该防御方法能够提高概念模型的鲁棒性。
本文讨论了局部神经算子(LNO)的局部性问题,探究了其感受野和感受范围,并发现初始感受范围对于 LNO 良好表现至关重要。通过大量实验验证,本文得出了适用于不同领域的局部神经算子学习瞬态偏微分方程的普适规律,并通过实际案例验证了预训练的 LNO 在流体预测中的高准确性和高效率表现。
该文介绍了$k$NN-LMs模型,将预训练的神经语言模型与$k$最近邻居模型线性插值,实现了一个新的最先进的困惑度为15.79,无需额外训练。作者认为这种方法在扩展到更大的训练数据和实现领域自适应方面具有作用,并在长尾系统的语言建模中是一种有效的方法。
该论文提出了一种基于深度生成模型的无监督跨模态域迁移方法,通过学习后续接口来提高模块性。实验证明了该方法有效,保留了局部性和语义对齐,并加快了新接口模型的训练速度。
本文研究了基于解码器的Transformer模型在使用不同位置编码方式时对长度泛化的影响。发现NoPE表现更优秀,无需额外计算,能代表绝对和相对位置嵌入。但在使用SGD训练时,主要呈现T5相对位置嵌入的注意力模式。同时,scratchpad并不总是有助于解决长度泛化问题,其格式对模型性能有很大影响。表明解码器-only的Transformer不一定需要显式的位置嵌入以在更长的序列上泛化良好。
该文介绍了如何通过机器学习预测哈密顿量族的基态及其性质。利用物理约束和预测密度矩阵的正定核可以改进样本复杂度,特别是在强局部性的情况下,样本数可以进一步降低。
完成下面两步后,将自动完成登录并继续当前操作。