本文提出了Entropy-SGD优化算法,通过局部几何改善深度神经网络的训练,展现出比SGD更平滑的能量景观和更好的泛化性能。同时,研究探讨了熵正则化在马尔可夫决策过程中的应用,证明了其在优化速度和收敛性方面的优势。
文章讨论了分布式系统中的一致性和共识问题。为了实现容错系统,需要使用通用抽象和一致性保证。线性化是一种强一致性模型,确保系统像只有一个数据副本。CAP定理指出在网络分区时必须在一致性和可用性之间选择。文章还介绍了两阶段提交协议用于实现分布式事务的原子性,以及共识算法如Raft和Zookeeper的应用。
用少量彩色图像恢复 3D 形状和视角相关外观的一种新方法,实现高效的 3D 重建和新视角合成,方法名为 SparseCraft。
使用函数值高斯过程提出了一种逼近贝叶斯不确定性量化的新框架,可应用于神经算子,实现对非线性动力系统的精确建模和预测。
通过线性变压器架构,降低预训练成本,提出了一种代价效益较高的线性变压器预训练方法 SUPRA,并在标准基准测试中取得了竞争性的性能。
该文章提出了一种基于梯度优化的算法,通过ReLU感知优化解决了私有推理的瓶颈问题。实验结果显示,该算法在提高预测准确率方面有显著效果,并且可以在保证准确性的前提下减少运行时间。该算法在延迟-准确性空间中有进一步的改进。
本文通过Lyapunov分析证明了使用梯度下降法训练神经网络权重的动态会收敛到接近最小范数解的一个点,并提供了Arora等人普适性结果的另一证明。
本文介绍了一种简单的方法,通过翻译成线性化的、词汇化的组成树来融合目标语言的语法信息,实验结果显示,与训练语法无关的神经机器翻译系统相比,WMT16德英新闻翻译任务的BLEU评分明显提升。语法感知系统在翻译过程中进行了更多的重排,小规模人类评估也证实了其优势。
本文介绍了一种基于实例的线性化方法,用于提高神经网络模型的可解释性。该方法可以突出输入特征的重要性,并准确解释每个输入特征对预测的贡献。此技术在有监督分类和无监督神经网络学习参数化 t-SNE 降维中的应用也进行了讨论。
本文研究了ReLU激活函数在深度神经网络中的逼近能力,使用连续分段线性插值进行构建,并分析了逼近速率和正则条件,探究了功能数据学习算法的理解。
研究发现,线性化浅层 transformer 模型能够重现 transformer 训练动态的几个重要方面,对 transformer 训练的复杂性有更深入的了解。结果表明,简单的线性化 transformer 模型是理解 transformer 优化的有价值的现实抽象。
该研究发现神经网络的演化可以用神经切向核表示,网络函数在训练期间遵循线性微分方程。研究还对神经切向核进行了数值研究,并将其与无限宽度的极限进行了比较。
本文提出了一种利用微分平直性实现类似最先进的学习为基础的控制器性能但计算开销显著减少的新型非线性控制器。该控制器通过非线性输入映射将非线性系统准确线性化,并用于安全滤波器以保证稳定性和约束满足。最终通过两次连续凸优化执行约束的非线性学习为基础的最优控制,取得类似的性能,同时提高计算效率并保证稳定性。
本文提出了一种利用微分平直性实现非线性系统准确线性化的新型非线性控制器,通过非线性输入映射并用于安全滤波器以保证稳定性和约束满足。该方法与最先进的学习为基础的控制策略相比,具有类似的性能,但计算效率显著提高,同时尊重平直状态和输入约束,并保证稳定性。
本文研究了双层全连接神经网络的早期学习动态,并证明了通过训练简单的线性模型可以模仿其行为。研究还发现这种简单性可以在更多层和具有卷积结构的网络中持续存在。
并发执行的正确性可通过三种一致性条件判断:静态一致性要求方法调用在无待处理调用时保持实时顺序;顺序一致性要求方法调用按程序顺序生效;线性化要求方法调用在调用与响应之间瞬时生效。这些条件确保并发对象的安全性和活跃性。
完成下面两步后,将自动完成登录并继续当前操作。