小红花·文摘

本研究提出了一种自动化能力发现（ACD）框架，旨在识别新模型的能力和潜在风险。通过前沿模型和开放式任务探测，ACD能够系统性地揭示模型的能力和缺陷，实验表明其能自动发现数千种能力，为AI系统的评估提供了重要进展。