小红花·文摘

本研究提出了AutoCoA框架，解决了传统智能体对外部提示的依赖问题。通过结合监督微调和强化学习，该模型能够自主判断何时及如何使用外部工具，从而显著提升长期推理和多步骤任务的完成效果。

Agent Models: Internalizing Action Chain Generation into Reasoning Models

BriefGPT - AI 论文速递 ·

该论文介绍了一种名为Deep Latent Competition（DLC）的强化学习算法，通过自我博弈在想象中学习竞争性视觉控制策略，实现长期推理。DLC代理人在紧凑潜在空间中想象多智能体互动序列，减少实际采样成本，同时潜在表示启用规划随着观察维度的扩展而平滑扩展。该算法在新颖多智能体比赛基准测试中学习了有效的竞争行为。

基于潜空间目标的最优控制的深度强化学习行为模式切换

BriefGPT - AI 论文速递 ·

Object Language Video Transformer (OLViT)是一种新颖的视频对话模型，解决了视频对话中准确的物体跟踪、空间和时间定位以及长期推理的挑战。它通过结合物体状态跟踪和语言状态跟踪来维护全局对话状态。OLViT非常灵活，可以与大型语言模型（LLM）无缝集成，适用于不同的数据集和任务。在具有挑战性的数据集上的评估结果显示，OLViT实现了最先进的性能。

OLViT: 基于注意力嵌入的视频对话多模态状态追踪

BriefGPT - AI 论文速递 ·