小红花·文摘

本研究提出了一种新红队框架EVA，旨在应对多模态代理在图形用户界面中的间接提示注入攻击。EVA通过动态监测代理的注意力分布，调整对抗线索，从而提高攻击的成功率和适应性。实验结果表明，该框架在多种场景下显著提升了攻击效果。

GUI代理的红队测试：通过演化间接提示注入

BriefGPT - AI 论文速递 ·

LlamaIndex 新闻简报 2025-04-15

Blog on LlamaIndex ·

COSINT-Agent是一种知识驱动的多模态代理，旨在解决开放源智能（OSINT）在整合和推理多样化数据方面的挑战。通过EES-Match框架和优化的大语言模型，COSINT-Agent显著提升了从非结构化数据中提取可行洞察的能力。

COSINT-Agent: A Knowledge-Driven Multimodal Agent for Chinese Open Source Intelligence

BriefGPT - AI 论文速递 ·

本文介绍了DyLAN大型语言模型代理网络在推理和代码生成任务中的优越表现，特别是在MATH和HumanEval任务上分别提高了13.0%和13.3%的准确率。提出的M^3框架增强了多模态代理的模型选择和鲁棒性，并创建了MS-GQA数据集以研究模型选择挑战。此外，研究探讨了多智能体系统在复杂任务中的应用潜力，提出了“推理能力”概念以优化系统组件间的联系，并通过群组讨论框架提升LLMs的推理能力。

CoPS：赋能大型语言模型代理以可证明的跨任务经验共享

BriefGPT - AI 论文速递 ·

本文介绍了基于大型语言模型（LLMs）的网络代理技术的进展，包括WebAgent、WebVoyager和AutoWebGLM等新模型。这些模型通过与真实网站交互，提高了网页导航任务的成功率，并提出了新的评估协议和框架，以应对复杂用户指令和长期任务的挑战。同时，研究还探讨了多模态代理的性能及未来发展方向。

AgentOccam：基于LLM的网页代理的简单而强大的基线

BriefGPT - AI 论文速递 ·

本文探讨了大型语言模型（LLMs）在用户界面自动化中的应用，提出了Auto-UI和AssistGUI等新框架，并评估了代理在复杂任务中的表现。研究表明，尽管现有方法有所提升，但在跨应用程序协作和用户约束方面仍面临挑战。通过新基准AndroidArena和AgentEval，为未来多模态代理的开发提供了方向和见解。

将每个应用程序转变为代理：朝着高效的人机交互迈进，基于API优先的LLM代理

BriefGPT - AI 论文速递 ·

本文介绍了AgentEval框架，用于评估大型语言模型（LLM）在计算机任务中的实用性。研究表明，当前最强的模型（GPT-4）仅达到人类能力的15%。通过多个基准测试，分析了开源与闭源LLM的性能差异，并提出了AgentQuest和OSWorld等新框架，以提升多模态代理的表现。此外，研究探讨了代理在复杂任务中的自我提升能力，发现存在显著的性能瓶颈。

Windows代理竞技场：大规模评估多模态操作系统代理

BriefGPT - AI 论文速递 ·

该论文提出了一种目标驱动的网络导航模型，评估智能体的自然语言理解和规划能力。通过多种数据集评估，展示了模型在任务完成和性能提升方面的潜力，并介绍了多模态代理的评估框架和新任务，强调了复杂用户任务中的挑战及改进方法。

WebPilot：一种多功能自主管理的网页任务执行系统，具有战略探索能力

BriefGPT - AI 论文速递 ·

AI 控制手机自动化！财富密码速速发掘 | 开源日报 No.332

开源服务指南 ·

Spider2-V是首个专注于数据科学和工程工作流程的多模态代理基准，包含494个真实任务，评估多模态代理在数据相关任务中的能力。文章还介绍了WebVoyager等多模态模型，展示了它们在实际应用中的成功率和评估方法，强调了多模态代理在自动化数据科学中的潜力与挑战。

Spider2-V: 多模态智能体距离自动化数据科学与工程工作流有多远？

BriefGPT - AI 论文速递 ·

本文介绍了一种基于多模态代理和大型语言模型的视频理解系统，旨在解决长期时间关系问题。该系统在EgoSchema和NExT-QA测试中表现优异，显著提升了视频理解的准确性和效率。同时，研究提出了新的数据结构和方法，促进多模态数据的融合与处理，为视频内容分析和问答任务提供了新思路。

OmAgent: 复杂视频理解的多模态代理框架与任务分割

BriefGPT - AI 论文速递 ·

本文介绍了多个基准测试和工具包，如OSWorld、ScienceWorld和AgentStudio，旨在评估和推动多模态代理在复杂任务中的能力。研究强调了交互环境和多样化任务对智能代理学习和泛化能力的重要性，展示了人工智能领域的最新进展与挑战。

DISCOVERYWORLD：开发和评估自动科学发现代理的虚拟环境

BriefGPT - AI 论文速递 ·

本文介绍了多模态互联网代理的基准测试MMInA，旨在评估自主体代理在复杂用户任务中的表现。研究发现，代理在长链多跳任务中面临挑战，并提出了一种记忆增强方法，显著提升了其网络浏览能力。同时，文章探讨了多模态代理在视觉任务中的评估，揭示了当前模型的局限性和未来研究方向。

MMInA：多跳多模态互联网代理的基准测试

BriefGPT - AI 论文速递 ·

本文介绍了OSWorld基准，评估多模态代理在369个计算机任务中的表现，强调其在开放领域的应用潜力。研究表明，尽管GPT-4等代理表现优异，但仅达到人类能力的15%。多个基准测试如VisualWebArena和WebVoyager揭示了多模态代理在实际应用中的挑战与进展，为未来研究提供了重要参考。

OSWorld: 多模态代理在真实计算机环境中的开放式任务评测

BriefGPT - AI 论文速递 ·

本文介绍了VisualWebArena，这是一个用于评估自主多模态代理在视觉任务中表现的基准。研究揭示了文本模型的局限性和多模态代理的能力差距，并提出了多种评估方法和任务，以提升智能代理在网络导航和对话质量方面的表现。

数字代理的自主评估和优化

BriefGPT - AI 论文速递 ·