小红花·文摘

GRACE：一种可解释的逆强化学习语言模型框架

Apple Machine Learning Research ·

本研究提出了一种时间加权对比奖励学习（TW-CRL）框架，旨在提高逆强化学习的效率。通过引入时间信息，TW-CRL利用成功与失败的示范学习密集奖励函数，帮助智能体避免“陷阱状态”，并鼓励更有意义的探索。实验结果表明，该方法在导航和机器人操作任务中优于现有技术。

Time-Weighted Contrastive Reward Learning: A New Method for Efficient Inverse Reinforcement Learning

BriefGPT - AI 论文速递 ·

本研究提出了一种新颖的逆强化学习方法，解决了固定奖励分配和隐式奖励正则化的灵活性问题。通过引入平方时间差正则化器和自适应目标动态调整，我们的方法在模仿学习中优化了奖励函数，并结合分布式强化学习，在MuJoCo任务上取得了优异的实验结果。

RIZE：通过分布式强化学习的正则化模仿学习

BriefGPT - AI 论文速递 ·

本研究提出了一种基于逆强化学习的无人机视觉导航框架，旨在克服现有学习方法的局限性。该框架能够在复杂环境中快速生成无碰撞航点，实现灵活飞行，且无需额外训练，适用于真实场景。

RAPID: A Robust and Agile Planner Using Inverse Reinforcement Learning for Vision-Based Drone Navigation

BriefGPT - AI 论文速递 ·

本研究探讨了逆强化学习中智能体偏好建模的识别问题，特别是非指数折扣智能体的情况。研究发现，逆强化学习通常无法获取足够的信息来准确识别偏好函数，从而影响智能体的最优策略求解。

Partial Identifiability of Agents with Non-Exponential Discounting in Inverse Reinforcement Learning

BriefGPT - AI 论文速递 ·

本研究提出了一种新算法WHIRL，利用逆强化学习解决公共卫生领域资源有限下的患者监测问题。该算法在印度母婴健康项目中验证有效，显著提高了计算效率和准确性。

Inverse Reinforcement Learning for Noisy Multi-Armed Bandits and Its Application in Maternal and Child Health

BriefGPT - AI 论文速递 ·

本文探讨了逆强化学习中通过先验函数推断奖励函数的方法，提出了多种新算法以优化学习效率和降低复杂性。研究表明，深度潜在变量模型和分歧最小化方法能够有效从不完善的演示中学习，提升机器人控制任务的表现。此外，提出了新框架IRLEED和混合增强学习方法，以解决不必要的探索和奖励恢复问题。

重新思考逆强化学习：从数据对齐到任务对齐

BriefGPT - AI 论文速递 ·

本文探讨了人工智能系统与人类价值观对齐的问题，提出了一种基于多智能体决策和人类认知模型的协作逆强化学习方法。研究强调道德价值对齐的重要性，并提出新的框架和奖励函数设计，以提高AI系统的道德一致性和透明性，确保其符合社会伦理标准。

民主化个性化和代表性价值对齐的奖励设计

BriefGPT - AI 论文速递 ·

本文介绍了一系列基于注意力机制的多智能体学习模型，强调贝叶斯推理、逆强化学习和领域知识在智能体行为预测与协作中的应用。这些模型在复杂任务中提升了学习效率和决策能力，展示了在多智能体系统中的有效性与可解释性。

多智能体系统的逆注意力智能体

BriefGPT - AI 论文速递 ·

本文探讨了自动驾驶车辆如何利用基于层次逆强化学习的概率预测方法，准确预测周围车辆行为并进行规划。提出的奖励增强模仿学习（RAIL）方法在复杂场景中提升了智能体的表现，并展示了深度强化学习和风险感知奖励塑形在自动驾驶中的应用，强调了多智能体强化学习在资源分配和环境建模中的重要性。

城市自动驾驶的强化模仿轨迹规划

BriefGPT - AI 论文速递 ·

本文探讨了逆强化学习（IRL）的研究进展，包括重建代理奖励函数的算法、处理不准确模型的方法以及基于生成模型的奖励估计。研究表明，贪心算法在信息最大化中接近最优，并提出了新的算法以提高样本效率和行为迁移能力。

具有多种规划视野的逆强化学习

BriefGPT - AI 论文速递 ·

本文介绍了一种新型概率反向最优控制算法，旨在优化从有限演示中推断奖励函数的能力。研究通过逆强化学习和深度潜在变量模型，解决了奖励函数的非可辨识性问题，并提出了DRASRL框架，显著提高了奖励估计的准确性。

从多样化示范中学习因果不变的奖励函数

BriefGPT - AI 论文速递 ·

该研究提出了一种无人干预的框架，利用无监督学习和逆强化学习，帮助机器人学习人类用户模型，以优化人机协作任务的策略。实验验证了该框架在机器人与人类合作中的有效性，提升了任务效率和安全性。

人机协作相关性

BriefGPT - AI 论文速递 ·

本文探讨了通过半监督学习和奖励模型优化机器人行为的方法，提出了SURF框架和DPO算法，显著提高了反馈效率和可控性。研究中使用Themis工具增强偏好建模，SuperHF方法解决了对齐挑战，并提出了合成偏好数据生成的新方法以改善奖励模型性能。此外，开发了RewardBench基准以评估奖励模型，最后提出了一种基于逆强化学习的监督微调方法，提升了大型语言模型与人类意图的对齐效果。

基于迭代自我训练的半监督奖励建模

BriefGPT - AI 论文速递 ·

本文介绍了多目标强化学习和逆强化学习的最新研究进展，包括基于广义Bellman方程的算法、双层优化框架和逆偏好学习（IPL）算法。这些方法在不同任务中表现优越，尤其在离线设置下，通过动态选择子目标和专家数据引导学习，提高了学习效率和策略表现。

多样专家策略生成的帕累托逆强化学习

BriefGPT - AI 论文速递 ·

本文介绍了计划辅助控制(SAC-X)和逆强化学习(IRL)的研究进展，重点探讨了多智能体协作、内在奖励设计及其在复杂环境中的应用，强调了内在奖励在稀疏奖励情况下的重要性，并提出了RLeXplore框架以支持无监督学习。

IReCa：增强内在奖励的上下文感知强化学习用于人机协作

BriefGPT - AI 论文速递 ·

该研究提出了一种基于逆强化学习的异常检测框架，结合神经网络和贝叶斯方法以提高检测的可靠性。通过风险预防训练和无监督学习，显著提升了在线异常检测的性能，并在安全强化学习中设计了动态奖励调整方法，以满足复杂的安全约束。

增强强化学习中的安全性，通过异常状态序列建模

BriefGPT - AI 论文速递 ·

本文探讨了逆强化学习和深度强化学习在机械血栓切除和外科手术中的应用，提出了多种方法以提高手术的精确性和效率，包括自主导航、个性化适应和低成本遥操作系统的开发。这些技术有望加速自主导管和手术机器人的研究进展。

机器人导管手术的主从遥操作系统：设计、特性、追踪控制

BriefGPT - AI 论文速递 ·

本文探讨了逆强化学习（IRL）的新方法，包括贝叶斯逆强化学习（BIRL）和变分下界逆向强化学习（VLB-IRL）。这些方法通过学习专家的奖励函数来优化策略，消除手动设计奖励的需求。研究表明，这些新算法在复杂环境中表现优越，能够有效推断奖励函数并提升学习效率。

贝叶斯逆强化学习中的价值行走

BriefGPT - AI 论文速递 ·

本文研究了逆强化学习（IRL）算法，提出了多种推断奖励函数和约束条件的方法，以解决高维无模型学习问题。实验验证了算法在不同约束和环境下的有效性，并探讨了安全性和奖励设计的挑战。

自信感感知的逆约束强化学习

BriefGPT - AI 论文速递 ·