小红花·文摘

HyperAI超神经 ·

gloomyfish ·

字节Seed推出的M3-Agent多模态智能体具备长期记忆和实时感知能力，通过强化学习提升推理效果，优于现有模型。M3-Bench基准评估其在长视频理解中的表现，展现出卓越的跨模态推理能力。

量子位 ·

美国东北大学与波士顿动力RAI联合提出的HEP框架，通过坐标系转移接口实现机器人高效学习。该框架的分层结构提升了灵活性，自动适应空间变化，显著降低了数据依赖。实验结果显示，HEP在复杂任务中的成功率提升了60%，为未来多模态智能体集成提供了新路径。

量子位 ·

MetaAgentX团队推出了Open CaptchaWorld平台，旨在评估多模态智能体在解验证码方面的能力。研究表明，尽管人类的成功率高达93.3%，但最先进的模型如GPT-4o的成功率仅为40%，显示出当前智能体在高交互场景中的不足。该平台旨在促进智能体在真实网页任务中的应用与发展。

量子位 ·

本文探讨了多模态智能体在设计生成和用户界面代码自动化方面的研究进展。研究表明，GPT-4V在视觉设计转代码任务中表现优异，但多模态模型在真实环境中完成复杂任务仍面临挑战。提出的Sketch2Prototype框架有效提升设计探索，UGround模型显著改善了GUI代理的环境感知能力。

BriefGPT - AI 论文速递 ·

机器之心 ·

机器之心 ·