本研究针对离线强化学习中的分布偏移问题,提出了离线机器人世界模型(RWM-O),以改进策略学习,增强泛化能力和安全性,推动基于真实数据的政策学习。
本研究提出了一种特征-结构混合不变表示学习模型(FSM-IRL),旨在解决深度图神经网络在处理地理数据时的分布偏移问题。该模型通过因果注意力方法增强学习能力,提升了在离线分布场景下的表现。
本研究提出了InCo-DPO方法,解决了直接偏好优化中的离线数据质量和分布偏移问题。通过整合在线与离线数据,动态调整二者的平衡,实验结果表明该方法在多个基准测试中显著提升了模型性能。
离线多智能体强化学习(MARL)旨在从预先收集的数据中学习最佳策略,但面临分布偏移和协调行为的挑战。中山大学与美团合作提出了样本内顺序策略优化(InSPO)算法,通过顺序更新策略,避免选择分布外动作,增强智能体的协调性。实验结果表明,InSPO在多个任务中表现优异,具有广泛的应用潜力。
本研究提出了一种新方法,通过重要性加权评估大型语言模型的数据质量,发现过滤掉分布偏移较大的样本可提升模型推理能力,性能可与依赖外部监督的先进方法相媲美。
本文研究了测试时间训练(TTT)在处理语音应用中的分布偏移问题的应用,并探索了TTT如何帮助调整到分布偏移。实验中发现了TTT面临的关键挑战,并提出了使用BitFit作为解决挑战的参数高效微调算法。
基于大型语言模型的基石模型,通过强化学习训练来捕捉期望行为,并校准语言模型。研究评估了奖励模型对分布偏移的鲁棒性,并提出了检测分布偏移的方法。
该文章介绍了一种离线强化学习方法,利用先前经验学习更好的政策,解决了分布偏移和有效表示策略的问题。作者提出了一种新方法,将状态重构特征学习纳入扩散策略中,以解决分布外泛化问题。在多个任务上评估该模型的性能,取得了最先进的结果。
基于大型语言模型的基石模型,通过强化学习训练捕捉期望行为,并校准语言模型。研究评估奖励模型对分布偏移的鲁棒性,提出检测分布偏移的方法。
该文章介绍了一种离线强化学习方法,利用先前经验学习更好的政策。该方法解决了分布偏移和有效表示策略的问题,可以使用非专家数据和多模态行为策略。作者提出了一种新方法,将状态重构特征学习纳入扩散策略中,以解决分布外泛化问题。在多个任务上评估该模型的性能,取得了最先进的结果。
本文提出了通过敌对训练生成稳健高保真黑盒模型解释的新框架。实验结果显示该方法在分布偏移下具有稳定性和鲁棒性,且不牺牲解释保真度。
本文介绍了一种使用可缩放矢量图形(SVG)格式处理图像的新方法,弥合了视觉和文本模态之间的鸿沟,提高了对分布偏移的鲁棒性。通过简单的图像分类、生成和上下文学习,展示了该方法在鉴别性和生成性任务上的潜力。
本研究提出了3S Testing框架,通过生成合成测试集和模拟分布偏移来评估模型性能。实验证明,该框架在估计少数群体和可能的分布偏移方面优于传统基准。结果引发了一个问题,是否需要从真实测试数据转向合成测试数据的新方法。
本文介绍了一种解决强化学习在真实机器人上训练时数据效率和分布偏移问题的方法。该方法通过使用离线数据集在真实机器人上对世界模型进行预训练,然后使用学习模型进行在线数据集的规划和微调。该方法在模拟环境和真实机器人上的视觉-动作控制任务上进行了验证,发现即使离线数据有限,该方法也能实现对已知和未知任务的少次数微调。
该文介绍了一种离线强化学习方法,利用先前的经验来学习政策,以解决分布偏移和有效表示策略的问题。该方法将状态重构特征学习纳入扩散策略中,以解决分布外泛化问题。作者在多个任务上评估了该模型的性能,实现了最先进的结果。
本文研究了领域自适应方法在解决分布偏移问题时的挑战,并发现无监督领域自适应、无源领域自适应和测试时间自适应都存在挑战。研究结果显示,使用适当的验证分割和一些以前未开发的验证指标可以改善性能。改进的数据、训练、验证和超参数优化实践可以推动领域自适应研究的进展。
本文研究了Vision Transformers在分布偏移情况下的泛化问题,发现其在背景和纹理上学习的偏差较弱,而对形状和结构的归纳偏差较强。相比卷积神经网络,Vision Transformers在分布偏移情况下具有更好的泛化性能,准确度高出5%以上。作者提出了增强泛化性能的GE-ViTs,并设计了更平滑的学习策略以优化其性能。
本文研究了Vision Transformers在分布偏移情况下的泛化问题,发现其在背景和纹理上学习的偏差较弱,对形状和结构的归纳偏差较强。相对于卷积神经网络,在分布偏移情况下具有更好的泛化性能,且使用相同数量的参数,在大多数类型的分布偏移下,比相应的CNN模型准确度高出5%以上。此外,作者还提出了增强泛化性能的GE-ViTs,对超参数敏感度高,因此设计了更平滑的学习策略以优化GE-ViTs的性能。
完成下面两步后,将自动完成登录并继续当前操作。