本文研究了经过梯度流训练的单隐藏层ReLU网络在$n$个数据点上的收敛性,发现宽度为$ ext{log}(n)$的网络能够高概率实现全局收敛,并揭示了收敛速度的渐近特征。
本研究提出了一种新水印技术“浅层扩散”,旨在解决AI生成内容中的误信息和版权问题。该方法通过低维子空间嵌入隐形水印,显著提升了水印的可检测性和数据一致性,优于现有技术。
本文研究了ReLU神经网络的逼近能力,发现深层网络在逼近光滑函数方面优于浅层网络。通过分析超参数和随机初始化,证明了深层网络在优化中具有更强的全局收敛性。此外,过度参数化对优化景观有重要影响,浅层ReLU网络在高维空间中也能有效逼近Hölder函数。
本文探讨了大型语言模型(LLMs)的知识注入与评估方法。通过LoRA技术和结构修剪,提升了模型性能并降低计算成本。提出KGQuiz框架评估LLMs在知识任务中的表现,发现其在简单问答中表现良好,但在复杂推理中仍面临挑战。此外,KnowGPT框架通过强化学习增强了模型的问答能力,达到高准确率。研究还提出了高效的模型微调和量化策略,为LLMs的应用提供了新思路。
本文提出了一种基于生成扩散模型的全波形反演优化方法,结合地下速度模型与地震观测数据,提高模型重构精度。研究中使用生成对抗神经运算器(GANO)和深度学习技术,开发了条件地面运动合成算法(cGM-GANO),并在南加州地震中心和日本KiK-net数据集上验证了其有效性。结果表明,该方法在复杂地震速度反演中表现优异,能够生成高保真速度模型,提升地下结构的准确性和可靠性。
本文提出了一种结合消除噪声扩散概率模型和重建过程的迭代算法,旨在降低医患电离辐射剂量并提升CT图像重建质量。研究表明,该方法通过级联扩散与差异缓解框架,能够有效减少伪影和噪音,同时保持图像清晰度,且计算效率高。
通过研究大型语言模型,该论文揭示了语言模型与人类大脑的相似性,重点分析了架构组件中的分词策略和多头注意力以及需求确定性的关键因素,最终提出了一种高度与人类大脑和行为对齐的模型。
本文探讨了利用深度学习技术(如卷积自编码器和LSTM网络)构建高效的随机参数模型,以研究复杂自然现象。这些模型能够有效预测复杂系统的动态行为,提升计算效率并保持系统稳定性。同时,研究提出了新的动力学感知成本函数和编码器技术,以应对高维度多尺度系统的建模挑战。
本文研究了浅层量子电路与经典神经网络之间的量子经典分离,探讨了分类问题在有无噪声情况下的表现。结果表明,经典神经网络需要较深的结构才能有效输出。同时,分析了噪声对量子设备性能的影响,并提出了鲁棒的学习算法和量子统计查询模型,以提高量子计算的效率和准确性。
本研究提出了一种新的复合值卷积神经网络(Complex-valued CNN)用于极化合成孔径雷达图像分类。该方法在多个数据集上提高了准确度,并通过对Flevoland数据的分析证明了其有效性。
学习量子态和幺正算子的复杂度与创建这些态和算子的复杂度相关。量子状态重构和学习存在困难,但学习量子电路生成的态和幺正算子表明采样复杂度与门复杂度线性相关,查询复杂度与门数线性相关。计算复杂度根据可信的加密猜想呈指数爆炸增长。这些结果限制了量子机器学习模型的表达能力,且对幺正算子学习中的no-free-lunch定理提供新的视角。
SFDA通过使用多模态模型和DIFO方法,解决了现有方法中的错误问题,实验结果表明DIFO优于现有替代方法。
本研究通过分析使用标准的浅层前馈网络来模拟原始 Transformer 模型中的注意力机制的有效性,采用知识蒸馏的方法,用简单的前馈网络替换 Transformer 中的关键元素,并在 IWSLT2017 数据集上进行实验,发现这种 “无注意力 Transformer”...
提出了一种基于深度神经网络的时间序列分类新基准线,包括全卷积网络(FCN)和深层ResNet结构,通过全局平均池化和类激活映射(CAM)实现了优异性能,为未来研究提供了良好起点。
本文讨论了“浅层大脑假说”,该假说认为大脑处理可能比想象的更少层次,更集成,涉及皮层和皮层下之间的并行路径。作者认为,这种浅层架构比深层层次结构更具优势,并且更全面地展示了哺乳动物大脑如何实现快速、灵活的计算。
该研究提出了一种用于处理面部识别服务中数据隐私问题的数据隐私最小化转换方法,通过增强扰动方法和多重限制机制提高鲁棒性和可扩展性,有效防止面部数据滥用和隐私泄露,同时保持面部识别的准确性。
研究发现,几乎所有已知的激活函数类型都可以用小型三层前馈神经网络在高维空间上表达,但无法用任何二层网络近似到特定常数精度以上,除非它的宽度在指数级别。深度比宽度对于标准前馈神经网络的提升价值可以是指数级别。该结果需要更少的假设,并且证明技巧和构造方法非常不同。
研究发现,线性化浅层 transformer 模型能够重现 transformer 训练动态的几个重要方面,对 transformer 训练的复杂性有更深入的了解。结果表明,简单的线性化 transformer 模型是理解 transformer 优化的有价值的现实抽象。
通过融合关键词和同义词集合以及聚焦损失函数训练模型,我们提出了知识增强的转换器模型,用于检测不良药物反应。实验结果表明,我们的模型在三个公共数据集上的F1值优于现有技术水平,相对改进幅度分别为4.87%、47.83%和5.73%,证明了模型的有效性。
完成下面两步后,将自动完成登录并继续当前操作。