人类校准自治软件任务
📝
内容提要
本研究解决了高度自治AI系统对社会影响评估的具体问题,提出了HCAST基准,通过与人类基准的比较来直接连接AI性能与现实世界效果。研究发现,目前基于前沿基础模型的AI代理在较短任务上成功率为70-80%,但在长任务中成功率不足20%,这为AI任务的可信度提供了重要的评估指标。
➡️
本研究解决了高度自治AI系统对社会影响评估的具体问题,提出了HCAST基准,通过与人类基准的比较来直接连接AI性能与现实世界效果。研究发现,目前基于前沿基础模型的AI代理在较短任务上成功率为70-80%,但在长任务中成功率不足20%,这为AI任务的可信度提供了重要的评估指标。