小米的MiMo AI团队开源了MiMo Code,声称其在超过200步的任务中表现优于Anthropic的Claude Code。研究指出,当前编码代理在长时间任务中存在失败模式,尤其是在执行复杂编辑和测试时。伯克利大学的基准测试显示,主流代理在复杂任务中的通过率极低,强调了代理在长时间工作中的局限性。企业应关注代理的持久性和可靠性。
A社宣布将Claude Cowork的5小时使用限额翻倍,活动至7月5日结束,旨在吸引更多办公用户。尽管周限额保持不变,用户可能更易触发周限额,引发抱怨。该工具适合长时间任务,如读取文件和处理邮件。
文章讨论了上下文压缩在长时间任务中的重要性,指出随着会话历史的增加,代理可能会遗忘之前的信息,导致性能下降。上下文压缩通过将会话内容浓缩为结构化表示,帮助代理在保持性能的同时继续工作。文章介绍了可逆压缩和有损摘要等不同压缩策略,并强调了Redis Iris在实时上下文管理中的作用,提供高效的内存、检索和数据集成解决方案。
Cloudflare推出动态工作流,支持多租户应用在运行时动态执行代码。该系统允许每个租户独立处理长时间运行的任务,如视频转码和多阶段计费。通过Worker Loader路由请求,确保每个租户的代码正确执行,显著降低资源成本,支持数百万用户。
本研究提出了一种新颖的归纳模仿学习框架(ABIL),旨在解决现有模仿学习在开放环境中处理长时间任务的不足。ABIL结合数据驱动学习与符号推理,展现出在长时间任务中的数据效率和泛化能力,为符号规划提供了新思路。
完成下面两步后,将自动完成登录并继续当前操作。