BriefGPT - AI 论文速递 ·

锤子：通过函数掩蔽实现的强大的设备端语言模型函数调用

💡 原文中文，约300字，阅读约需1分钟。

📝

内容提要

现有基准测试无法有效评估语言代理与人类互动能力。为此，我们提出了$ au$-bench，模拟用户与具备特定API工具的语言代理对话。通过比较对话结束时的数据库状态与目标状态来评估代理表现，并引入pass^k指标评估多次试验中的可靠性。实验显示，即使是先进的代理如gpt-4o，成功率也不足50%，尤其在零售领域表现不佳。研究指出需改善代理的一致性和可靠性。

🎯

关键要点

现有基准测试无法有效评估语言代理与人类用户的交互能力。
$ au$-bench是一个新提出的基准测试，模拟用户与具备特定API工具的语言代理的对话。
评估过程通过比较对话结束时的数据库状态与目标状态来进行。
引入了新的度量指标pass^k，用于评估代理在多次试验中的可靠性。
实验结果显示，先进的代理如gpt-4o在任务成功率上不足50%。
在零售领域，代理的一致性表现不佳，pass^8低于25%。
研究指出需要改善代理的行为一致性和可靠性。

🏷️

继续阅读

谷歌威胁情报小组曝光DarkSword漏洞用于监控iOS设备和窃取各类敏感资料
谷歌威胁情报小组披露了名为DarkSword的iOS漏洞利用工具，该工具可在未更新系统的情况下完全接管iOS设备。自2025年11月起，该工具被多个间谍软...
微软将改进WSL子系统的使用体验目标不是能用而是更好用🚀🚀🚀
微软计划改进WSL子系统，以提升Windows 11上的网络兼容性和吞吐量，缩小与macOS和Linux的差距，增强文件处理速度和安全性，吸引更多开发者留...
陪审团认定埃隆·马斯克的‘愚蠢推文’导致推特投资者损失
加州陪审团裁定，埃隆·马斯克在2022年以440亿美元收购推特前误导了投资者。马斯克在本月的证词中表示，他不认为自己的推文会影响市场，但承认如果是关于他愚...
你的 Go 报错信息正在“出卖”你！扒一扒大厂是如何做错误隔离与日志脱敏的
在Go语言中，错误处理需谨慎，避免泄露敏感信息。应使用自定义的SafeError结构体，仅对外显示安全提示，内部错误信息仅供日志使用。遵循信任边界原则，防...
重磅消息！Windows 11开始菜单将从Web迁移到原生UI 可显著提升性能
微软将Windows 11开始菜单从WebView2迁移至WinUI3原生框架，以提升响应速度和性能。当前的推荐部分基于WebView2，导致性能不佳。微...
2026 03 21 HackerNews
谷歌计划在2026年更新Android系统，提升应用侧载的安全性。用户需验证身份后才能安装未验证的应用，并设有24小时等待期以防恶意软件，旨在保护用户安全...

锤子：通过函数掩蔽实现的强大的设备端语言模型函数调用

内容提要

关键要点

标签

继续阅读