本文通过将关联记忆的能量函数视为负对数似然函数,建立了其与概率建模的联系。提出了基于能量的模型及两种新的关联记忆模型,研究了高斯内核密度估计器的记忆容量和transformers中的自注意力聚类。
研究发现,增大 Transformer 模型不一定提升性能,但记忆训练样本能改善泛化能力。通过 Hopfield 网络模拟 Transformer,揭示其记忆过程和性能动态。设计的能量函数为注意力机制提供新解释,并构建全局能量函数捕捉层次结构。实验验证理论,证明在特定条件下,交叉熵损失下界约为1。
本研究提出了一种基于能量函数的新理论解析,开发出高效的树形注意力算法,可在跨多个GPU并行计算注意力时提升速度8倍,降低通信量和内存使用,适用于长序列上下文解码。
本文研究了基于梯度流的采样方法的设计要素,包括能量函数、度量和梯度流的数值近似。通过展示Kullback-Leibler散度的独特性质,研究了度量的选择。提出了基于高斯近似的梯度流方法,并与参数变分推断衍生的梯度方法建立了联系。研究了它们的收敛性。
本文研究了基于梯度流的采样方法的设计要素,包括能量函数、度量和梯度流的数值近似。通过展示Kullback-Leibler散度的独特性质,研究了度量的选择,并构建了各种仿射不变的梯度流。提出了基于高斯近似的梯度流方法,并研究了其收敛性。
本文提出了在RBMs的能量函数中引入另一项以显式地建模输入数据中的局部空间交互作用,以建模全局动态和本地空间交互作用的理论扩展。通过提出的学习方法,在两个计算机视觉应用程序上评估了改进的RBM模型:面部表情识别和人体动作识别,并在基准数据库上展示了所提出算法的有效性。
本文研究了图像拼接中目标被裁剪、遗漏或复制导致的错误,并提出了一种基于目标检测的算法来解决这个问题。该算法可以修改拼接过程中的能量函数,得到更逼真和鲁棒的拼接结果。同时,该方法还可以检测不可恢复的遮挡,并提出了评估图像拼接算法输出结果的简单指标。
本文介绍了一种基于能量的生成流网络概率建模算法,通过随机构造数据策略来建模生成过程,并将昂贵的MCMC探索分摊开来。同时,提出了一个框架,共同训练GFlowNet与能量函数,使其在各种概率建模任务中表现出有效性。
本文研究了基于梯度流的采样方法的设计要素,包括能量函数、度量和梯度流的数值近似。研究表明,Kullback-Leibler散度作为能量函数具有独特性质,度量的选择从不变性的角度出发,构建了各种仿射不变的Wasserstein和Stein梯度流。提出了基于高斯近似的梯度流方法,并与参数变分推断衍生的梯度方法建立了联系,研究了它们的收敛性。
完成下面两步后,将自动完成登录并继续当前操作。