小红花·文摘

本研究针对离线强化学习中的分布偏移问题，提出了离线机器人世界模型（RWM-O），以改进策略学习，增强泛化能力和安全性，推动基于真实数据的政策学习。

离线机器人世界模型：无需物理模拟器的机器人策略学习

BriefGPT - AI 论文速递 ·

本研究提出了一种特征-结构混合不变表示学习模型（FSM-IRL），旨在解决深度图神经网络在处理地理数据时的分布偏移问题。该模型通过因果注意力方法增强学习能力，提升了在离线分布场景下的表现。

Causal Invariant Geographic Network Representations with Feature and Structural Distribution Shifts

BriefGPT - AI 论文速递 ·

本研究提出了InCo-DPO方法，解决了直接偏好优化中的离线数据质量和分布偏移问题。通过整合在线与离线数据，动态调整二者的平衡，实验结果表明该方法在多个基准测试中显著提升了模型性能。

InCo-DPO: Balancing Distribution Shift and Data Quality for Enhanced Preference Optimization

BriefGPT - AI 论文速递 ·

行为正则化与顺序策略优化结合的离线多智能体学习算法

美团技术团队 ·

本研究提出了一种新方法，通过重要性加权评估大型语言模型的数据质量，发现过滤掉分布偏移较大的样本可提升模型推理能力，性能可与依赖外部监督的先进方法相媲美。

重要性加权能够帮助大型语言模型自我提升

BriefGPT - AI 论文速递 ·

本文研究了测试时间训练（TTT）在处理语音应用中的分布偏移问题的应用，并探索了TTT如何帮助调整到分布偏移。实验中发现了TTT面临的关键挑战，并提出了使用BitFit作为解决挑战的参数高效微调算法。

语言驱动的测试时间适应用于自动语音识别

BriefGPT - AI 论文速递 ·

基于大型语言模型的基石模型，通过强化学习训练来捕捉期望行为，并校准语言模型。研究评估了奖励模型对分布偏移的鲁棒性，并提出了检测分布偏移的方法。

直接对齐算法中奖励模型过度优化的尺度规律

BriefGPT - AI 论文速递 ·

该文章介绍了一种离线强化学习方法，利用先前经验学习更好的政策，解决了分布偏移和有效表示策略的问题。作者提出了一种新方法，将状态重构特征学习纳入扩散策略中，以解决分布外泛化问题。在多个任务上评估该模型的性能，取得了最先进的结果。

离线到在线强化学习中的任务泛化集成后继代表

BriefGPT - AI 论文速递 ·

基于大型语言模型的基石模型，通过强化学习训练捕捉期望行为，并校准语言模型。研究评估奖励模型对分布偏移的鲁棒性，提出检测分布偏移的方法。

MetaRM: 通过元学习实现偏移分布对齐

BriefGPT - AI 论文速递 ·

该文章介绍了一种离线强化学习方法，利用先前经验学习更好的政策。该方法解决了分布偏移和有效表示策略的问题，可以使用非专家数据和多模态行为策略。作者提出了一种新方法，将状态重构特征学习纳入扩散策略中，以解决分布外泛化问题。在多个任务上评估该模型的性能，取得了最先进的结果。

通过轨迹拼接提炼离线强化学习的条件扩散模型

BriefGPT - AI 论文速递 ·

本文提出了通过敌对训练生成稳健高保真黑盒模型解释的新框架。实验结果显示该方法在分布偏移下具有稳定性和鲁棒性，且不牺牲解释保真度。

最大化学习性能同时保证解释性的集成

BriefGPT - AI 论文速递 ·

本文介绍了一种使用可缩放矢量图形（SVG）格式处理图像的新方法，弥合了视觉和文本模态之间的鸿沟，提高了对分布偏移的鲁棒性。通过简单的图像分类、生成和上下文学习，展示了该方法在鉴别性和生成性任务上的潜力。

LLMs 作为视觉解释器：通过演变的视觉描述推进图像分类

BriefGPT - AI 论文速递 ·

本研究提出了3S Testing框架，通过生成合成测试集和模拟分布偏移来评估模型性能。实验证明，该框架在估计少数群体和可能的分布偏移方面优于传统基准。结果引发了一个问题，是否需要从真实测试数据转向合成测试数据的新方法。

能否信任你的模型评估？通过合成测试数据提升模型评估

BriefGPT - AI 论文速递 ·

本文介绍了一种解决强化学习在真实机器人上训练时数据效率和分布偏移问题的方法。该方法通过使用离线数据集在真实机器人上对世界模型进行预训练，然后使用学习模型进行在线数据集的规划和微调。该方法在模拟环境和真实机器人上的视觉-动作控制任务上进行了验证，发现即使离线数据有限，该方法也能实现对已知和未知任务的少次数微调。

在真实环境中微调离线世界模型

BriefGPT - AI 论文速递 ·

该文介绍了一种离线强化学习方法，利用先前的经验来学习政策，以解决分布偏移和有效表示策略的问题。该方法将状态重构特征学习纳入扩散策略中，以解决分布外泛化问题。作者在多个任务上评估了该模型的性能，实现了最先进的结果。

离线强化学习中的等变数据增强技术

BriefGPT - AI 论文速递 ·

本文研究了领域自适应方法在解决分布偏移问题时的挑战，并发现无监督领域自适应、无源领域自适应和测试时间自适应都存在挑战。研究结果显示，使用适当的验证分割和一些以前未开发的验证指标可以改善性能。改进的数据、训练、验证和超参数优化实践可以推动领域自适应研究的进展。

领域自适应的更佳实践

BriefGPT - AI 论文速递 ·

本文研究了Vision Transformers在分布偏移情况下的泛化问题，发现其在背景和纹理上学习的偏差较弱，而对形状和结构的归纳偏差较强。相比卷积神经网络，Vision Transformers在分布偏移情况下具有更好的泛化性能，准确度高出5%以上。作者提出了增强泛化性能的GE-ViTs，并设计了更平滑的学习策略以优化其性能。

本文研究了Vision Transformers在分布偏移情况下的泛化问题，发现其在背景和纹理上学习的偏差较弱，对形状和结构的归纳偏差较强。相对于卷积神经网络，在分布偏移情况下具有更好的泛化性能，且使用相同数量的参数，在大多数类型的分布偏移下，比相应的CNN模型准确度高出5%以上。此外，作者还提出了增强泛化性能的GE-ViTs，对超参数敏感度高，因此设计了更平滑的学习策略以优化GE-ViTs的性能。

专家权重平均化：一种新的用于视觉 Transformer 的通用训练方案

BriefGPT - AI 论文速递 ·

离线机器人世界模型：无需物理模拟器的机器人策略学习

Causal Invariant Geographic Network Representations with Feature and Structural Distribution Shifts

InCo-DPO: Balancing Distribution Shift and Data Quality for Enhanced Preference Optimization

行为正则化与顺序策略优化结合的离线多智能体学习算法

重要性加权能够帮助大型语言模型自我提升

语言驱动的测试时间适应用于自动语音识别

直接对齐算法中奖励模型过度优化的尺度规律

离线到在线强化学习中的任务泛化集成后继代表

MetaRM: 通过元学习实现偏移分布对齐

通过轨迹拼接提炼离线强化学习的条件扩散模型

最大化学习性能同时保证解释性的集成

LLMs 作为视觉解释器：通过演变的视觉描述推进图像分类

能否信任你的模型评估？通过合成测试数据提升模型评估

在真实环境中微调离线世界模型

离线强化学习中的等变数据增强技术

领域自适应的更佳实践

计算机视觉模型中背景偏差去除的遮盖策略

专家权重平均化：一种新的用于视觉 Transformer 的通用训练方案