本研究解决了深度Q网络(DQN)在逼近能力证明中未考虑最佳Q函数内在结构特性的不足。通过建立一个针对DQN架构的新型通用逼近定理,展示了深度残差网络层如何通过模仿Bellman更新的迭代过程来有效逼近Bellman算子,进而提供了对控制问题结构的深刻理解,从而推动了价值函数精细化的迭代与误差传播控制。
本文研究了深度Q网络在连续时间框架下的逼近特性,发现其能够以任意精度逼近最优Q函数,为深度强化学习与随机控制的结合提供了新见解。
本文研究了多元脊函数对Sobolev函数逼近的上下界,提出了一种方法,揭示了逼近速度与正则性之间的关系,并为广义平移网络和复值神经网络在Sobolev函数逼近中的应用提供了渐近界,从而加深了对复杂网络逼近能力的理解。
研究探讨如何通过调整现有大语言模型来创建特定语言模型。实验分析了基础模型选择、词汇扩展和持续微调对模型效率和任务表现的影响。结果表明,初始性能不一定代表最终性能,简单的词汇扩展和微调可以提高效率,适应方法因语言而异。以英语为中心的模型在资源稀缺语言上表现更好。该研究为高效构建语言专属模型提供了基础。
本文研究了在有监督学习环境下使用梯度下降法训练的递归神经网络在动态系统中的表现,证明了梯度下降法可以实现最优性。通过非渐近分析,给出了网络大小和迭代复杂性的界限,并显示了长期依赖对网络宽度的影响。结果表明,适当初始化的递归神经网络可以在低次对数尺度下实现最优性。这些结果基于对动态系统类的明确描述,并通过约束范数的传输映射和隐藏状态的局部平滑性属性来实现。
本文解决了验证神经网络在几何变换(如旋转、缩放、剪切和平移)下的鲁棒性问题。提出的方法通过采样和线性逼近结合分支限界的Lipschitz优化来计算像素值的可证明的分段线性约束,显著提高了对扰动区域的过度逼近精度。实验结果表明,该方法能更有效地解决比现有方法更多的验证案例。
本文提出了一种基于通用逼近定理的深度学习并行化策略,设计了一个名为Para-Former的并行网络,有效地加快了多层网络的推理速度。
自然语言处理从特定任务建模转向使用预训练模型,并微调为特定任务。这种模型具有广义模型特性,但也存在问题,如近似质量、发现性、稳定性和保护性。建议从其近似专家功能的能力出发看待其广义性和潜在价值。
本文使用随机梯度下降(SGD)解决了k-奇偶问题,并证明SGD训练出的网络可以逼近该网络,有效地解决了问题。
该研究探讨了离散时间贴现马尔可夫决策过程的逆问题,并提出了解决方案。研究考虑了完全掌握专家策略的情况,并引入了线性标准化约束。通过线性函数逼近器和随机化方法,为逆问题提供了 ε- 最优解。对于有限一组专家示范和生成模型可供使用的情况,给出了使用样本时产生的误差界限。
基于Transformer架构的大型语言模型(LLMs)在NLP应用领域展示了广泛的应用潜力。该调查报告深入了解了Transformer模型的最新研究和实际应用,突出了其多功能性和转变性影响。
本文提出了一种新的Graph Convolutional Neural Networks的表达方式,用于在具有噪声的生物医学知识图上进行链接预测。通过正则化的注意机制提高模型性能和可解释性。实验证明该方法在海量的生物医学知识图中优于其他模型。
神经网络架构、随机初始化权重、神经网络高斯过程核、再生核希尔伯特空间、逼近误差是该研究论文的关键词,论文提出了一种在无限宽度限制下具有随机初始化权重的神经网络架构,它等价于一个具有高斯随机场协方差函数的神经网络高斯过程核,同时证明了该神经网络架构可以逼近由该核定义的再生核希尔伯特空间中的函数。实验结果验证了该理论发现的可行性。
本文研究了非均匀离散时间马尔可夫过程中的去噪扩散概率模型(DDPM)。通过与已知的研究广泛的OU过程建立等价关系,证明了DDPM中的噪声调度器设计问题等价于OU过程的观测时间设计问题。提出了几种启发式的观测时间设计,并将其与DDPM的特殊噪声调度相连接。展示了费舍尔信息驱动的调度与余弦调度完全一致。
这篇文章研究了改进的多臂赌博机问题,并给出了近似最优的上下界。作者证明了对于任何随机在线算法,存在一个实例使其相对于最优收益至少有一个Ω(√k)的近似因子。然后,作者提供了一个随机在线算法,在事先告知最优臂可达到的最大收益的情况下,保证了一个O(√k)的近似因子。最后,作者展示了如何消除这一假设,以增加O(log k)的近似因子,从而实现了相对于最优的O(√k log k)的整体近似。
Adapprox 是一种使用随机低秩矩阵近似来更有效准确地近似 Adam 的二次矩的新方法,在 GPT-2 训练和下游任务中,Adapprox 相比 AdamW 能够实现 34.5%到 49.9%和 33.8%到 49.9%的内存节省,并且它通过提高收敛速度和改进下游任务性能相对于其他方法。
本文研究了具有延迟更新的随机逼近方案的非渐近性能。研究发现,延迟的SA更新规则能够快速收敛到固定点周围的球体,减缓了最大延迟对收敛速率的影响,并且不需要关于延迟序列的先验知识来进行步长调整。这些理论发现对TD学习、Q学习和马尔可夫采样下的随机梯度下降等算法具有有限时间效果。
本论文介绍了一种使用神经网络进行近似推理的方法,通过在查询变量上使用连续多线性函数来近似赋值的代价,并通过神经网络输出解决方案。实验证明该方法在求解概率电路中的最大边后验和边后验最大估计任务时优于竞争的线性时间近似方法。
本文对联邦线性随机逼近(FedLSA)算法进行了非渐进分析,提出了SCAFFLSA来校正异质代理的本地训练引入的偏差,并证明其在统计异质性方面的收敛性。同时应用于联邦时序差异学习,并分析了复杂度改进。
我们开发了一种新的方法HTBB,用于多维黑盒逼近和无梯度优化。该方法基于低秩分层Tucker分解,并采用MaxVol指标选择过程。通过数值实验,证明了该方法在维度为1000的情况下的稳健性和准确性。
完成下面两步后,将自动完成登录并继续当前操作。