本研究针对离线强化学习中的分布偏移问题,提出了离线机器人世界模型(RWM-O),以改进策略学习,增强泛化能力和安全性,推动基于真实数据的政策学习。
本研究提出了一种特征-结构混合不变表示学习模型(FSM-IRL),旨在解决深度图神经网络在处理地理数据时的分布偏移问题。该模型通过因果注意力方法增强学习能力,提升了在离线分布场景下的表现。
本研究提出了InCo-DPO方法,解决了直接偏好优化中的离线数据质量和分布偏移问题。通过整合在线与离线数据,动态调整二者的平衡,实验结果表明该方法在多个基准测试中显著提升了模型性能。
离线多智能体强化学习(MARL)旨在从预先收集的数据中学习最佳策略,但面临分布偏移和协调行为的挑战。中山大学与美团合作提出了样本内顺序策略优化(InSPO)算法,通过顺序更新策略,避免选择分布外动作,增强智能体的协调性。实验结果表明,InSPO在多个任务中表现优异,具有广泛的应用潜力。
本文介绍了一种无监督领域适应方法,通过注意力对齐和后验标签分布估计,显著提升了模型在不同数据集上的性能。研究提出了类条件域对齐和伪标签优化等技术,以解决领域间类别不平衡和分布偏移问题,实验结果表明该方法在多个基准测试中优于现有方法。
本文探讨了图领域适应的方法,提出了多种无监督和半监督学习技术,以有效将源图的知识转移至目标图。研究表明,基于图傅里叶变换、谱正则化和邻域感知自训练的方法在多个数据集上显著提升了分类性能,解决了领域间的分布偏移问题。
本研究提出了一种新方法,通过重要性加权评估大型语言模型的数据质量,发现过滤掉分布偏移较大的样本可提升模型推理能力,性能可与依赖外部监督的先进方法相媲美。
本文综述了分布偏移和超出分布(OOD)样本检测的研究进展,提出了多种新框架和方法,以提高机器学习模型在非独立同分布数据下的泛化能力和检测性能。研究内容包括OOD检测的定义、方法、评估及未来发展方向,强调了外部数据和生成学习在OOD学习中的重要性。
本文提出了一种新的无源领域自适应框架,利用伪标签和无源域自适应算法,解决目标数据的不确定性和分布偏移问题。该方法在多个任务上展现了优越的校准效果,计算轻量且无需源数据,增强了模型的鲁棒性。
本文探讨在线自适应卫星图像分割中的分布偏移问题,提出了一种通过全局统计和类别中心修正的方法,以应对图像退化引起的偏移。此外,研究分析了测试时间自适应(TTA)在不同场景中的应用,优化了模型性能,解决了动态环境中的挑战,并提供了有效的评估基准。
本文探讨了视觉预训练在机器人操作中的应用,特别是ViT模型在分布偏移下的表现。研究表明,视觉分割能力是预测真实世界性能的重要因素。提出的Vi-PRoM方案结合自监督和监督学习,利用无标签数据进行模式学习,显著提升了机器人操作效果。实验验证了该方法在多种环境中的优越性,显示出视觉预训练在机器人学习中的潜力。
本文研究了一种基于神经网络的注意分类器,提出结合不同非一致性函数的方法,以提高预测标签的准确性和覆盖率。通过引入特权信息,解决了分布偏移导致的预测不可靠问题。实验证明,该方法在多个数据集上优于现有技术,具有更好的覆盖率和信息性。
本文介绍了多种离线强化学习方法,包括BOSA、基于不确定性的算法和自适应策略学习框架。这些方法通过优化策略和利用不同数据源,提高了离线数据的效率和模型性能,解决了分布偏移问题,并在多个基准测试中取得了优异的结果。
本文探讨了多种机器学习方法应对数据不平衡和分布偏移问题。提出的二元分类器和拓扑增强方法有效提升了节点分类性能。新开发的TDUE-BO方法在材料发现中表现优异,DBT模型在回归任务中超越传统方法,CBDT分类器在文本偏见检测中也取得显著提升。
本研究探讨了图神经网络在分布偏移下的泛化能力,提出了L2R-GNN方法,通过聚类和学习权重来改善泛化性能。研究结果表明,该方法在分类、回归和语义分割等任务中显著优于现有技术,增强了可解释性,并在多个数据集上取得了优异的表现。
本文提出了一种新的学习框架,旨在解决模式预测中的分布偏移和知识转移问题。通过不同损失函数处理潜在变量,显著提升动态模式预测模型的性能。同时,研究探讨了因果图在轨迹预测中的应用,提出了空间-时间联合表示学习方法,增强了对人类移动数据的理解和预测准确性。
本文探讨了在源域有充足标签数据而目标域仅有稀缺标签数据的情况下,开发转移学习算法的有效性。研究提出了鲁棒优化和自适应迁移学习等多种方法,以提高模型在分布偏移下的性能。实验结果表明,所提算法在预测误差和解释性方面优于现有方法,能够有效处理高维环境中特征维度大于样本大小的情况。
本文综述了图形领域中的越域泛化(OOD)问题,分类现有方法并探讨其在图神经网络中的应用。研究提出了一种基于因果模型的新框架,以提高图结构数据的泛化性能,解决分布偏移带来的挑战。通过因果推断,提升了模型在不同分布迁移下的准确率,并展望未来研究方向。
本文介绍了多种强化学习算法,重点解决离线数据集分布偏移问题。LAPO、OAP、MACAW等方法在不同任务中表现优异,特别是在D4RL基准测试中显著提高了得分。此外,研究提出结合过往数据与在线学习的策略,以提升学习效率和缩短学习时间。
该文章介绍了一种离线强化学习方法,利用先前经验学习更好的政策。该方法解决了分布偏移和有效表示策略的问题,可以使用非专家数据和多模态行为策略。作者提出了一种新方法,将状态重构特征学习纳入扩散策略中,以解决分布外泛化问题。在多个任务上评估该模型的性能,取得了最先进的结果。
完成下面两步后,将自动完成登录并继续当前操作。