本文探讨深度学习理论中网络输出的分析方法,将随机初始化的多层感知机视为输入的哈密顿量,揭示了能量景观的性质,特别是无限宽度下近全局最小值的结构,并分析了不同激活函数对能量景观的影响。
本文提出了一种基于代数的机器学习新基础,通过将任务目标和数据编码为代数公理,实现模型的泛化。实验结果表明,该方法在标准数据集上的性能与优化后的多层感知机相当,并可扩展至形式问题的求解。
本研究探讨了离线强化学习中的目标条件监督学习,提出了递归跳跃规划(RSP)方法,验证了浅层多层感知机在长期轨迹动态捕捉中的有效性,显著降低了序列建模误差。
本研究提出了一种通过单次前向传播提升贝叶斯深度学习预测效率的方法,利用激活函数的局部线性化和线性层的高斯近似,成功应用于多层感知机和变压器模型的回归与分类任务。
本研究提出了一种新方法,将基于注意力的多变量时间序列预测模型简化为多层感知机(MLP),通过前馈、跳跃连接和层归一化操作实现。结果显示,该方法显著降低了计算量,同时保持了可接受的性能,展示了其高效性和可行性。
科尔莫戈洛夫-阿诺德网络(KANs)作为多层感知机(MLPs)的替代方案,展现出更高的准确性和可解释性。研究表明,KAN在图像识别和时间序列数据处理上表现优异,尤其在鲁棒性方面具有潜力。与传统模型相比,KAN在参数效率和性能上均有显著提升,为深度学习模型的优化提供了新思路。
本文提出了一种名为BlockPruner的无训练结构化修剪方法,能够有效识别和去除冗余的多头注意力和多层感知机块。研究表明,在移除多层之前,模型性能仅轻微下降,剪枝显著降低了内存和计算成本。通过对Transformer模块的冗余性分析,发现可以安全剪枝大量Attention层,从而提升性能。最终,该方法在多个数据集上表现优于现有技术。
该研究提出了一种混合量子-经典视觉转换器架构,通过集成变分量子电路、注意机制和多层感知机来解决分析高亮度大型强子对撞机数据的挑战。成功训练了量子模型,并实现了与完全经典架构几乎相媲美的分类性能。
通过傅里叶特征映射,多层感知机(MLP)能够学习低维问题领域中的高频函数,提高了MLP在低维回归任务中的性能。研究结果对计算机视觉和图形学领域的最新进展提供了启示。
本文研究了线性模型在时间序列预测中的能力,并提出了基于多层感知机的模型TSMixer。TSMixer在学术基准测试和真实世界的M5基准测试中表现出良好性能,强调了利用交叉变量和辅助信息提高时间序列预测性能的重要性。预计TSMixer的设计将为基于深度学习的时间序列预测带来新的视野。
本文提出了一种基于MLP网络的嵌入式特征选择方法,可用于组特征或传感器选择问题。该方法可控制冗余级别,并通过组套索惩罚推广为特征选择机制。实验结果表明,该方法在特征选择和组特征选择方面具有良好性能。
本文介绍了一种带有线性激活函数和批归一化的多层感知机模型,证明了其正向信号传播特性的精确表征。同时,提出了一种激活函数塑形方案,能够在某些非线性激活函数下实现类似的特性。在线性独立的输入样本情况下,该模型能够渐近地保持梯度有界的特性。
本文介绍了一种基于多层感知机的图神经网络模型(Graph-MLP),利用图结构的监督信号,无需信息传递模块,使用邻域对比损失(NContrast)进行分类任务。研究表明,该模型即使在没有邻接信息的情况下也能达到最先进模型相媲美的性能。
本文提出了一个简单的多模式时空数据建模框架,通过设计一个跨模式空间关系学习组件来自适应地建立多个模式之间的连接,并使用多层感知机来捕捉时态依赖和通道相关性。实验证明该模型在三个真实数据集上始终优于基准模型,具有更低的空间和时间复杂度,为时空数据建模开辟了一种有前景的方向,同时也验证了跨模式空间关系学习模块的一般化能力。
自2017年提出的Transformer模型架构在深度学习领域迅速崛起,广泛应用于文本、音频和视频等多个领域。本文介绍了Transformer的基本结构和工作原理,重点讨论了模型的可解释性,详细阐述了模型的层次结构、注意力机制和多层感知机(MLP)层的实现,以帮助软件工程师理解Transformer的内部运作。
完成下面两步后,将自动完成登录并继续当前操作。