GRASP是一种新型的基于梯度的规划方法,旨在提高现代世界模型的长时间规划能力。通过提升轨迹至虚拟状态、添加随机性和重塑梯度,GRASP增强了优化过程的稳健性,有效解决了长时间规划中的脆弱性问题,提升了高维空间中的规划成功率和速度。
本研究提出了一种基于流的生成模型的理论框架,解决了传统自回归算法在时间序列预测中的局限。该框架从逼近、泛化和效率三个方面提供理论保证,证明了在任意误差下的收敛性,并展示了快速收敛的优化过程。
本文研究了强化学习中人类偏好学习的两种近似:用点奖励代替成对偏好,以及奖励模型在超出分布数据上的泛化。直接偏好优化(DPO)试图绕过第二种近似,但仍依赖第一种。文章提出了新的ΨPO目标,绕过这两种近似,深入分析RLHF和DPO的行为及缺陷。通过设置Ψ为Identity,推导出有效优化过程,证明其性能优于DPO。
本研究提出了一种新方法,通过精调模型参数来增强对抗攻击的质量,并证明了在特定条件下优化模型参数的有效性。验证了P3A方法能够显著提高对抗攻击的表现。
本文介绍了将自适应进化策略与大型语言模型相结合的方法,提高了复杂优化过程的可解释性。通过捕获详细的日志并利用大型语言模型生成简洁的摘要,使优化过程更易理解。研究结果展示了使用大型语言模型来弥合优化算法与可解释性之间的差距的潜力。
符号回归是一个广泛研究的领域,旨在从数据中推断出符号表达式。本研究介绍了一种名为Nested SINDy的增强方法,通过引入嵌套结构来增加SINDy方法的表达能力。结果突出了Nested SINDy在符号回归中的潜力,超越了传统的SINDy方法。然而,优化过程中存在挑战,并提出了未来的研究方向。该研究证明了Nested SINDy有效地发现了动态系统的符号表示,为通过数据驱动方法理解复杂系统提供了新的机会。
本文介绍了强化学习中的两个重要近似方法:对人类偏好进行学习的RLHF和直接偏好优化的DPO。作者提出了一种新的通用目标ΨPO,可以绕过这两个近似。作者还提出了一种有效的优化过程,并在实证中证明其优于DPO。
本文讨论了优化过程中探索多列GROUP BY子句的替代排序方式,通过同步GROUP BY子句的顺序与ORDER BY排序子句或排序顺序,可以避免排序操作。文章还介绍了一个新的GUC enable_group_by_reordering,可以禁用这种优化。
本研究比较了手动设计和学习优化器对网络架构优化过程的影响,并提出了关键见解。
本文介绍了一种新的通用目标——ΨPO,用成对偏好表示,可以绕过强化学习中的两个重要近似。通过将Ψ简单地设置为Identity,可以推导出一个有效的优化过程,并在一些示例中展示其在实证上优于DPO。
本文介绍了一种新的通用目标ΨPO,用成对偏好表示,可以绕过强化学习中的两个重要近似。通过将Ψ简单地设置为Identity,可以推导出一个有效的优化过程,并在一些示例中展示其在实证上优于DPO。
本文介绍了一种新的通用目标ΨPO,可以绕过强化学习中的两个重要近似,使得对算法进行更深入的理论分析成为可能。通过将Ψ设置为Identity,可以推导出一个有效的优化过程,并在实证中展示其优于DPO。
本论文介绍了一种新颖的深度补偿展开网络(DCUNet),用于恢复低光条件下捕捉的光场图像。DCUNet采用多阶段架构模拟解决反向成像问题的优化过程,并利用中间增强结果估计光照图。每个优化阶段都包括内容相关的深度补偿模块,用于抑制噪声和光照图估计误差。此外,论文提出了伪显式特征交互模块,充分利用光场图像中的冗余信息。实验结果定性定量地证明了DCUNet相对于现有方法的优越性,并更好地保留了增强的光场图像的基本几何结构。代码将在指定URL公开。
完成下面两步后,将自动完成登录并继续当前操作。