小红花·文摘

本研究提出了一种新的反向强化学习框架SWIRL，解决了传统方法无法捕捉动物历史依赖的问题。该模型结合时间变化和历史依赖的奖励函数，更准确地描述复杂的动物决策过程，并在多个数据集上优于传统模型。

Inverse Reinforcement Learning with Switching Rewards and History Dependency for Characterizing Animal Behaviors

BriefGPT - AI 论文速递 ·

该研究提出了一种导航指南模型，利用深度学习和自然语言处理，帮助机器人生成自然语言指令以进行导航。通过反向强化学习和神经序列模型，该方法在与人类指令比较中取得72.18%的BLEU分数，缩小了人机交互差距。此外，研究探讨了大型语言模型在机器人长期任务规划中的应用，提出了新的基准测试和方法，显著提高了机器人在复杂计划任务中的表现。

NSP：一种神经符号自然语言导航规划器

BriefGPT - AI 论文速递 ·

该研究提出了一种导航指南模型，结合反向强化学习和神经序列模型，使机器人能够生成自然语言指令，帮助人们在未知环境中导航。实验结果显示，该方法在与人类指令的比较中获得了72.18%的BLEU分数，缩小了人机交互的差距。研究还探讨了视觉-语言导航、深度学习和合成语音等技术，显著提升了导航指令的生成和执行能力。

空间感知发言人用于视觉-语言导航指令生成

BriefGPT - AI 论文速递 ·

本文介绍了一种新的多智能体模仿学习框架，基于反向强化学习，结合多智能体演员-评论家算法，适用于高维环境中的合作或竞争代理。研究探讨了深度强化学习和模仿学习在机器人控制中的应用，提出了多任务学习和迁移学习方法，展示了在不同任务中的有效性和学习加速。

仿真游戏：基于模型和模仿学习的深度强化学习混合模型

BriefGPT - AI 论文速递 ·