小红花·文摘

AI代理创建虚拟训练场，以帮助机器人获取关键训练数据

MIT News - Computer Science and Artificial Intelligence Laboratory (CSAIL) ·

τ0-WM——智元的视频-动作世界模型：组合“遥操、umi、人类第一人称视角”数据，未来视觉Latent助力动作生成，然后重新加噪去噪，若自洽取表现最好者直接执行，否则模拟推演找出最佳视觉指引重新生成

结构之法算法之道 ·

大型语言模型代理网络（DyLAN）在推理和代码生成任务中表现出色，通过优化算法选择最佳代理，提升了MATH和HumanEval任务的性能。AgentTuning方法增强了语言模型的代理能力，AgentLM在未知任务中与GPT-3.5-turbo相当。LLMArena框架评估多代理环境中的能力，发现LLM在对手建模和团队协作方面仍需改进。新提出的$ au$-bench基准测试评估代理与用户的交互能力，结果显示现有代理在任务一致性上存在不足。

MARCO：多智能体实时聊天协调

BriefGPT - AI 论文速递 ·

该论文提出了一种目标驱动的网络导航模型，评估智能体的自然语言理解和规划能力。通过多种数据集评估，展示了模型在任务完成和性能提升方面的潜力，并介绍了多模态代理的评估框架和新任务，强调了复杂用户任务中的挑战及改进方法。

WebPilot：一种多功能自主管理的网页任务执行系统，具有战略探索能力

BriefGPT - AI 论文速递 ·

本文探讨了自然语言处理领域的语言理解能力和大型语言模型的出现对任务和模型评估的挑战，并提出了多方面评估协议的建议，以实现对语言的更全面视角和可靠性的核心地位。

关于一般语言理解

BriefGPT - AI 论文速递 ·