量子位 ·

红杉中国推出全新AI基准测试xbench，要在AI下半场定义“好问题”

💡 原文中文，约2800字，阅读约需7分钟。

📝

内容提要

红杉中国推出AI基准测试xbench，旨在科学评估AI能力，解决现有测试无法真实反映能力的问题。xbench采用双轨评估体系，关注理论能力与实际应用价值，动态更新测试内容，促进AI技术突破。首期发布包括科学问题解答和深度搜索测评集，欢迎社区参与共建。

🎯

🔎

xbench采用双轨评估体系，既关注AI模型的理论能力上限，又重视其在实际应用中的效用。这种方法能够更全面地反映AI技术的真实价值，帮助开发者了解模型在不同场景下的表现，从而推动更具针对性的技术改进。

xbench引入长青评估机制，确保测试内容的时效性和相关性。通过动态更新题库，xbench能够有效避免题目泄露导致的过拟合问题，使得评估结果更具可信度。这一机制对于快速发展的AI领域尤为重要，能够及时反映技术进步。

红杉中国鼓励社区参与xbench的共建，这为各类开发者和研究者提供了一个合作平台。通过集思广益，xbench能够不断完善评估标准，推动AI技术的进步，同时也为参与者提供了展示和验证其技术能力的机会。

❓

xbench旨在科学评估AI能力，解决现有测试无法真实反映能力的问题。

xbench采用双轨评估体系，关注理论能力与实际应用价值。

xbench采用长青评估机制，动态更新测试内容以确保时效性和相关性。

首期发布包括科学问题解答测评集和中文互联网深度搜索测评集。

xbench通过引入Profession Aligned基准概念，关注现实世界的实用性任务，解决了评估有效性的问题。

xbench欢迎社区参与，共建与发布特定行业的评测标准，推动AI评测的新范式。

🏷️