本研究提出了一种新颖的随机重排列方法,旨在提高强化学习中经验重放的采样效率,增强学习的稳定性和样本效率。在Atari基准测试中,该方法优于传统技术。
本研究探讨了自一致性在聚合多样性随机样本时的动态机制,提出了一种基于置信度的机制,通过动态调整解码温度来提高采样效率和准确性。实验结果表明,该方法在数学推理任务中优于固定多样性基准。
Meta提出的CoCoMix框架结合稀疏自编码器和连续概念,提升了大型语言模型(LLMs)的性能,减少了21.5%的训练token,显示出更高的采样效率和可解释性。
本研究提出了一种新的周期贝叶斯流方法CrysBFN,旨在解决晶体数据生成建模中的周期性物理对称性问题。实验结果表明,CrysBFN在晶体生成和结构预测任务中表现优异,显著提高了采样效率。
本文提出了一种基于扭曲序列蒙特卡洛(TSMC)的新验证方法,旨在提升大型语言模型(LLMs)的多步推理能力。该方法通过聚焦有前景的候选项,提高采样效率,减少样本需求,并简化训练目标,降低对人工标注的依赖。实验结果显示,该方法在多个数学基准上表现优越。
本文识别了去噪模型训练损失中的奇点源,导致预测向源或目标分布均值归零。提出了一种新模型——线匹配模型(LMM),提高了采样效率和生成样本的保真度,在多个基准数据集上取得了先进的FID分数。
本文介绍了EfficientNeRF,一种高效的3D场景表示与新视图合成方法。通过改进采样方法和数据结构,显著提升了采样效率和渲染速度,训练时间缩短超过88%,渲染速度超过200 FPS,同时保持了良好的准确性,推动了NeRF的实际应用。
EfficientNeRF是一种高效的基于NeRF的方法,用于表示3D场景和合成新视图图像。通过有效的采样方法和新的数据结构,提高采样效率和渲染速度。该方法缩短训练时间,实现超过200 FPS的渲染速度,促进NeRF在现实世界中的应用和推广。
通过学习动态感知奖励函数,可以提高偏好基础增强学习的采样效率。使用50个偏好标签的方法在四足行走、行走者行走和猎豹奔跑中达到与使用500个偏好标签相同的性能,并恢复了83%和66%的地面真实奖励策略性能。这些结果证明了学习动态感知奖励模型的好处。
EDiSC是DiSC的嵌入版本,结合了词嵌入和DiSC以提供优越的模型性能。它在预测准确性、地面真实恢复和不确定性量化方面表现出色,同时还具有更好的采样效率和可扩展性。
本研究提出了预处理的Crank-Nicolson算法,用于解决贝叶斯神经网络在宽度增长时采样效率低的问题。该方法在网络宽度增加时具有更高的接受概率,且能更有效地抽样后验分布。研究表明,该方法在有效样本量和诊断结果上具有显著优势,对实际应用具有重要影响。
通过学习动态感知奖励函数,可以提高偏好基础增强学习的采样效率。使用50个偏好标签的方法可以达到与使用500个偏好标签相同的性能,并恢复了83%和66%的地面真实奖励策略性能。这些结果证明了学习动态感知奖励模型的好处。
本文介绍了一种新的高维统计推断方法perturb-max,通过随机扰动和优化注入随机性到最大后验预测器中,产生无偏样本。同时,在低维扰动情况下提高采样效率。还证明了perturb-max值的期望和最大扰动值之和是模型熵的上界,并通过测量结果使得采样平均值与期望值的偏差以样本数量的指数衰减,有效近似期望。
EfficientNeRF是一种高效的基于NeRF的方法,用于表示3D场景和合成新视图图像。通过有效的采样和新的数据结构,提高了采样效率和渲染速度。该方法缩短训练时间并实现高帧率渲染,有助于推广NeRF在现实世界中的应用。
EfficientNeRF是一种高效的基于NeRF的方法,用于表示3D场景和合成新视图图像。该方法通过有效的采样和新的数据结构,可以显著提高采样效率和渲染速度,缩短88%以上的训练时间,实现超过200 FPS的渲染速度,同时保持准确性。
First-Explore是一个新的元RL框架,通过学习智能探索策略来提高难以探索领域的性能。它引入了牺牲性探索,解决了标准RL中的问题,能够在极难的探索问题上实现人类水平的采样效率。该算法是解决未见过的硬探索领域的重要一步。
完成下面两步后,将自动完成登录并继续当前操作。