小红花·文摘

本研究提出时序差分流（TD-Flow）方法，旨在解决预测模型推理中的小错误累积问题，直接预测未来状态，从而提升预测质量。TD-Flow通过降低梯度方差，展示了在多个领域的优越性，表明其在长期决策中的潜在影响。

Temporal Difference Flow

BriefGPT - AI 论文速递 ·

本研究探讨了在复杂长期决策任务中结合符号规划与变换器策略。通过构建高层符号规划器和低层决策变换器，该框架在不确定的高维环境中生成有效的行动序列，实验结果表明其成功率和策略效率优于纯神经网络方法。

Hierarchical Neural Symbolic Decision Transformer

BriefGPT - AI 论文速递 ·

本研究提出了一种基于大语言模型的全面评估方法，解决了现有世界模型在决策评估中的不足。研究表明，GPT-4o在需要领域知识的任务中优于GPT-4o-mini，并揭示了长期决策任务中世界模型性能下降的问题。

使用大语言模型评估世界模型在决策中的作用

BriefGPT - AI 论文速递 ·

本文提出了一种结合模仿学习和强化学习的层次性指导算法框架，旨在解决奖励稀疏和长期决策问题。通过数据驱动方法生成抽象状态，提高了多任务决策的效率和效果。此外，研究探讨了基于扩散模型的生成序列模型，验证了其在长期规划和视觉控制中的优势，显著提升了规划速度和泛化能力。

扩散与选项相结合：用于时间延伸任务的分层生成技能组合

BriefGPT - AI 论文速递 ·

AI 模拟让人们一窥潜在的未来自我

MIT News - Artificial intelligence ·

本文介绍了MADiff，一个基于扩散模型的多智能体学习框架，提升了多智能体间的协调能力。MADiff通过扩展动力学模型，在长期决策和控制环境中表现优越，解决了传统方法的瓶颈。研究还提出了Diffusion World Model (DWM)，实现了长期状态和奖励的预测，显著提高了性能。此外，提出的离线多智能体模型DOM2在应对环境变化方面表现更佳。

基于扩散的离线强化学习中的长时程回滚动态模型

BriefGPT - AI 论文速递 ·