本研究提出了一种新算法,通过优势加权重要性采样训练平面目标条件策略,解决了离线目标条件强化学习中的稀疏奖励和折扣问题。该方法无需生成(子)目标空间模型,并在复杂长期任务中展现出超越现有技术的潜力。
本研究提出了一种新颖的迭代采样框架,结合Metropolis-Hastings算法与重要性采样,解决了大语言模型在生成文本长度管理上的不足。实验结果表明,该框架在长摘要和长度限制任务上几乎实现了100%的成功率,显示出精准控制文本长度的潜力。
本研究提出了一种“成本感知的基于仿真的推断方法”,旨在降低复杂模型推断的计算成本。通过结合拒绝采样和自归一化重要性采样,显著减少了所需的仿真次数,在流行病学和电信工程等领域实现了成本降低。
Verlet流是一种基于Hamiltonian动力学的连续正则化流,用于近似计算模型似然。实验证明Verlet流在重要性采样中比Hutchinson痕迹估计器更可靠且速度更快。
本文讨论了贝叶斯推断中的边际似然及其估计方法,包括蒙特卡洛方法和重要性采样方法。边际似然是条件变量的先验分布上似然函数的期望值。蒙特卡洛方法通过抽样和计算似然函数来估计边际似然,但在高维度和小样本情况下可能存在高方差。重要性采样方法通过建议分布来提供更准确的边际似然估计。
本文研究了使用重要性采样方法优化生成式对抗网络训练。实验结果显示该方法能够提高生成样本的优化速度和保真度。
基于流匹配后验估计(FMPE)的机器学习方法比神经后验估计(NPE)更准确,但比嵌套采样方法稍低。将FMPE和NPE与重要性采样相结合,准确性和模拟效率均优于嵌套采样。基于仿真和基于似然的重要性采样提供了准确高效的大气检索框架,可用于分析现有望远镜的观测数据和新任务的开发。
本研究提出了一种半离线评估框架,用于在高风险领域应用强化学习中评估新策略的泛化性能。该框架结合了离线和在线评估之间的中间步骤,人工用户提供未观察到的反事实轨迹的注释。研究设计了一族基于重要性采样和新颖加权方案的离线数据评估估计器,其能够纳入反事实注释而不引入额外偏差。实验结果表明,该方法优于纯离线重要性采样估计器,并且对于不完美的注释具有鲁棒性。
该研究使用生成流网络对因果祖先图进行采样,并通过与专家互动减少不确定性。通过重要性采样结合人的反馈,更新样本,提高推理质量。实验结果表明,该方法能够准确地对因果祖先图的分布进行采样,并在人类帮助下大大提高推理质量。
完成下面两步后,将自动完成登录并继续当前操作。