BriefGPT - AI 论文速递 ·

人类校准自治软件任务

📝

内容提要

本研究解决了高度自治AI系统对社会影响评估的具体问题，提出了HCAST基准，通过与人类基准的比较来直接连接AI性能与现实世界效果。研究发现，目前基于前沿基础模型的AI代理在较短任务上成功率为70-80%，但在长任务中成功率不足20%，这为AI任务的可信度提供了重要的评估指标。

➡️

继续阅读

开源私有云软件Nextcloud遭到黑客攻击网站被黑但开发商谎称基础架构问题
#安全资讯开源私有云软件 Nextcloud 遭到黑客攻击，网站被黑但开发商谎称是基础设施架构问题。这件事发生在昨天早晨，当时 Nextcloud 被重...
编码软件OpenCode封禁8,000个账号使用黑卡订阅转售API再申请退款
#人工智能 AI 编码软件 OpenCode 封禁 8,000 个违法薅羊毛账号，使用黑卡订阅再转售 API 给下游中转站。8,000 个账号理论成本为每...
俄罗斯科学家用AI算命：模拟算出人类寿命上限是194岁
研究人员首次定量评估发现，仅体细胞突变就将人类寿命限制在146-194岁。脑细胞和心肌细胞是主要的寿命瓶颈，而肝脏则可以存活数千年。要我说，这科学界天天...
[技巧] 如何阻止Windows 10/11自动下载LG显示器静默下载安装广告软件
#技术教程如何阻止 Windows 10/11 自动下载安装 LG 显示器捆绑的广告软件？早前 LG 显示器未经用户同意静默安装配套软件弹广告引起用户关...
Towards a Theory of Bugs: The Ruliology of the Unexpected
“My Program Did the Wrong Thing!” Bugs are a ubiquitous phenomenon in the sof...
谷歌Gemini 3.6 Flash发布：输出token暴降17%，价格战打到了七块五
谷歌AI模型更新引爆价格战，谁还敢说Flash系列只是“快枪手”？ Google一口气甩出三款新模型，直接把AI价格战打到了每百万token七块五毛钱，这...