本研究解决了不同设计选择(如权重共享、等变性和局部滤波器)对神经网络样本效率的影响不明确的问题。通过统计学习理论,研究提供了对单隐藏层网络样本复杂度的界定,发现等变性的益处直接体现在界限中,并为一种池化操作的等变网络获得了无维数的界限。结果表明,样本复杂度在空间和频率域中过滤器参数化之间存在权衡。
研究显示,对称检测可以提升机器学习性能。本文提出了一种框架,能够发现超越仿射变换的数据连续对称性,并提供了离散对称性的框架。实验表明,该方法在大样本下有效,小样本下优于LieGAN,且通常更高效。
基于Transformer架构的基础模型存在内容导向推理的弱点,通过改进结构状态空间模型(SSMs)参数成为输入的函数,将选择性SSMs集成到简化的神经网络架构中,提出了快速推断速度和线性扩展的模型Mamba,在多个模态上实现了最先进的性能。
本研究提出了基于概念模型的鲁棒性和输出一致性的研究,并探讨了恶意攻击方式和基于对抗训练的防御机制。研究发现,该防御方法能够提高概念模型的鲁棒性。
本文讨论了局部神经算子(LNO)的局部性问题,探究了其感受野和感受范围,并发现初始感受范围对于 LNO 良好表现至关重要。通过大量实验验证,本文得出了适用于不同领域的局部神经算子学习瞬态偏微分方程的普适规律,并通过实际案例验证了预训练的 LNO 在流体预测中的高准确性和高效率表现。
该文介绍了$k$NN-LMs模型,将预训练的神经语言模型与$k$最近邻居模型线性插值,实现了一个新的最先进的困惑度为15.79,无需额外训练。作者认为这种方法在扩展到更大的训练数据和实现领域自适应方面具有作用,并在长尾系统的语言建模中是一种有效的方法。
该论文提出了一种基于深度生成模型的无监督跨模态域迁移方法,通过学习后续接口来提高模块性。实验证明了该方法有效,保留了局部性和语义对齐,并加快了新接口模型的训练速度。
本文研究了基于解码器的Transformer模型在使用不同位置编码方式时对长度泛化的影响。发现NoPE表现更优秀,无需额外计算,能代表绝对和相对位置嵌入。但在使用SGD训练时,主要呈现T5相对位置嵌入的注意力模式。同时,scratchpad并不总是有助于解决长度泛化问题,其格式对模型性能有很大影响。表明解码器-only的Transformer不一定需要显式的位置嵌入以在更长的序列上泛化良好。
该文介绍了如何通过机器学习预测哈密顿量族的基态及其性质。利用物理约束和预测密度矩阵的正定核可以改进样本复杂度,特别是在强局部性的情况下,样本数可以进一步降低。
完成下面两步后,将自动完成登录并继续当前操作。