随着AI行业标准化的推进,新的评估工具Agent’s Last Exam(ALE)应运而生,旨在衡量AI代理在真实工作中的表现。该工具基于实际职业任务,评估AI在55种职业中的有效性。研究显示,尽管AI在某些任务上表现出色,但在复杂工作中仍未达到人类水平。Song教授指出,评估AI的经济价值是比较进展的重要方式,但并非唯一标准。
完成下面两步后,将自动完成登录并继续当前操作。