小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本研究针对离线强化学习中的分布偏移问题,提出了离线机器人世界模型(RWM-O),以改进策略学习,增强泛化能力和安全性,推动基于真实数据的政策学习。

离线机器人世界模型:无需物理模拟器的机器人策略学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-23T00:00:00Z

本研究提出了一种特征-结构混合不变表示学习模型(FSM-IRL),旨在解决深度图神经网络在处理地理数据时的分布偏移问题。该模型通过因果注意力方法增强学习能力,提升了在离线分布场景下的表现。

Causal Invariant Geographic Network Representations with Feature and Structural Distribution Shifts

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-25T00:00:00Z

本研究提出了InCo-DPO方法,解决了直接偏好优化中的离线数据质量和分布偏移问题。通过整合在线与离线数据,动态调整二者的平衡,实验结果表明该方法在多个基准测试中显著提升了模型性能。

InCo-DPO: Balancing Distribution Shift and Data Quality for Enhanced Preference Optimization

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-20T00:00:00Z
行为正则化与顺序策略优化结合的离线多智能体学习算法

离线多智能体强化学习(MARL)旨在从预先收集的数据中学习最佳策略,但面临分布偏移和协调行为的挑战。中山大学与美团合作提出了样本内顺序策略优化(InSPO)算法,通过顺序更新策略,避免选择分布外动作,增强智能体的协调性。实验结果表明,InSPO在多个任务中表现优异,具有广泛的应用潜力。

行为正则化与顺序策略优化结合的离线多智能体学习算法

美团技术团队
美团技术团队 · 2025-02-21T00:00:00Z

本文介绍了一种无监督领域适应方法,通过注意力对齐和后验标签分布估计,显著提升了模型在不同数据集上的性能。研究提出了类条件域对齐和伪标签优化等技术,以解决领域间类别不平衡和分布偏移问题,实验结果表明该方法在多个基准测试中优于现有方法。

深度神经网络中的标签对齐策略

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-07T00:00:00Z

本文探讨了图领域适应的方法,提出了多种无监督和半监督学习技术,以有效将源图的知识转移至目标图。研究表明,基于图傅里叶变换、谱正则化和邻域感知自训练的方法在多个数据集上显著提升了分类性能,解决了领域间的分布偏移问题。

排名与对齐:有效的无源图域适应方法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-22T00:00:00Z

本研究提出了一种新方法,通过重要性加权评估大型语言模型的数据质量,发现过滤掉分布偏移较大的样本可提升模型推理能力,性能可与依赖外部监督的先进方法相媲美。

重要性加权能够帮助大型语言模型自我提升

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-19T00:00:00Z

本文综述了分布偏移和超出分布(OOD)样本检测的研究进展,提出了多种新框架和方法,以提高机器学习模型在非独立同分布数据下的泛化能力和检测性能。研究内容包括OOD检测的定义、方法、评估及未来发展方向,强调了外部数据和生成学习在OOD学习中的重要性。

基于人类反馈的分布外学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-14T00:00:00Z

本文提出了一种新的无源领域自适应框架,利用伪标签和无源域自适应算法,解决目标数据的不确定性和分布偏移问题。该方法在多个任务上展现了优越的校准效果,计算轻量且无需源数据,增强了模型的鲁棒性。

无源领域不变性性能预测

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-05T00:00:00Z

本文探讨在线自适应卫星图像分割中的分布偏移问题,提出了一种通过全局统计和类别中心修正的方法,以应对图像退化引起的偏移。此外,研究分析了测试时间自适应(TTA)在不同场景中的应用,优化了模型性能,解决了动态环境中的挑战,并提供了有效的评估基准。

具有明显领域偏移的地理空间点云语义分割的测试时适应

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-08T00:00:00Z

本文探讨了视觉预训练在机器人操作中的应用,特别是ViT模型在分布偏移下的表现。研究表明,视觉分割能力是预测真实世界性能的重要因素。提出的Vi-PRoM方案结合自监督和监督学习,利用无标签数据进行模式学习,显著提升了机器人操作效果。实验验证了该方法在多种环境中的优越性,显示出视觉预训练在机器人学习中的潜力。

缓解机器人操作中的人机领域差异问题

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-20T00:00:00Z

本文研究了一种基于神经网络的注意分类器,提出结合不同非一致性函数的方法,以提高预测标签的准确性和覆盖率。通过引入特权信息,解决了分布偏移导致的预测不可靠问题。实验证明,该方法在多个数据集上优于现有技术,具有更好的覆盖率和信息性。

惩罚式逆概率度量在符合性分类中的应用

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-13T00:00:00Z

本文介绍了多种离线强化学习方法,包括BOSA、基于不确定性的算法和自适应策略学习框架。这些方法通过优化策略和利用不同数据源,提高了离线数据的效率和模型性能,解决了分布偏移问题,并在多个基准测试中取得了优异的结果。

使用未标记数据增强离线强化学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-11T00:00:00Z

本文探讨了多种机器学习方法应对数据不平衡和分布偏移问题。提出的二元分类器和拓扑增强方法有效提升了节点分类性能。新开发的TDUE-BO方法在材料发现中表现优异,DBT模型在回归任务中超越传统方法,CBDT分类器在文本偏见检测中也取得显著提升。

基于图的双向 Transformer 决策阈值调整算法用于类别不平衡的分子数据

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-10T00:00:00Z

本研究探讨了图神经网络在分布偏移下的泛化能力,提出了L2R-GNN方法,通过聚类和学习权重来改善泛化性能。研究结果表明,该方法在分类、回归和语义分割等任务中显著优于现有技术,增强了可解释性,并在多个数据集上取得了优异的表现。

基于拓扑感知的图分布偏移动态重新加权

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-03T00:00:00Z

本文提出了一种新的学习框架,旨在解决模式预测中的分布偏移和知识转移问题。通过不同损失函数处理潜在变量,显著提升动态模式预测模型的性能。同时,研究探讨了因果图在轨迹预测中的应用,提出了空间-时间联合表示学习方法,增强了对人类移动数据的理解和预测准确性。

迈向稳健轨迹表示:用因果学习分离环境混淆因素

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-22T00:00:00Z

本文探讨了在源域有充足标签数据而目标域仅有稀缺标签数据的情况下,开发转移学习算法的有效性。研究提出了鲁棒优化和自适应迁移学习等多种方法,以提高模型在分布偏移下的性能。实验结果表明,所提算法在预测误差和解释性方面优于现有方法,能够有效处理高维环境中特征维度大于样本大小的情况。

TransFusion:高维回归的协变量漂移鲁棒迁移学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-01T00:00:00Z

本文综述了图形领域中的越域泛化(OOD)问题,分类现有方法并探讨其在图神经网络中的应用。研究提出了一种基于因果模型的新框架,以提高图结构数据的泛化性能,解决分布偏移带来的挑战。通过因果推断,提升了模型在不同分布迁移下的准确率,并展望未来研究方向。

图形在分布偏移下的泛化

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-25T00:00:00Z

本文介绍了多种强化学习算法,重点解决离线数据集分布偏移问题。LAPO、OAP、MACAW等方法在不同任务中表现优异,特别是在D4RL基准测试中显著提高了得分。此外,研究提出结合过往数据与在线学习的策略,以提升学习效率和缩短学习时间。

离线强化学习的优势感知策略优化

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-12T00:00:00Z

该文章介绍了一种离线强化学习方法,利用先前经验学习更好的政策。该方法解决了分布偏移和有效表示策略的问题,可以使用非专家数据和多模态行为策略。作者提出了一种新方法,将状态重构特征学习纳入扩散策略中,以解决分布外泛化问题。在多个任务上评估该模型的性能,取得了最先进的结果。

通过轨迹拼接提炼离线强化学习的条件扩散模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-01T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码