红杉中国推出AI基准测试xbench,旨在科学评估AI能力,解决现有测试无法真实反映能力的问题。xbench采用双轨评估体系,关注理论能力与实际应用价值,动态更新测试内容,促进AI技术突破。首期发布包括科学问题解答和深度搜索测评集,欢迎社区参与共建。
完成下面两步后,将自动完成登录并继续当前操作。