小红花·文摘 - 小红花技术领袖俱乐部

数据中心正在进入美国农村地区

数据中心正在进入美国农村地区

The Verge ·

红杉中国推出AI基准测试xbench，旨在科学评估AI能力，解决现有测试无法真实反映能力的问题。xbench采用双轨评估体系，关注理论能力与实际应用价值，动态更新测试内容，促进AI技术突破。首期发布包括科学问题解答和深度搜索测评集，欢迎社区参与共建。

红杉中国推出全新AI基准测试xbench，要在AI下半场定义“好问题”

量子位 ·

本文比较了11种深度学习不确定性估计工具包的模型和评估能力，并推荐了Pyro、Tensorflow Probability和Uncertainty Quantification 360三种前景最好的工具包。文章强调了进一步统一评估和保障方法论的必要性。

深度学习框架开发中自动识别假设的探索性研究

BriefGPT - AI 论文速递 ·

该文章介绍了一项新的基准测试，专门针对传统汉语语言模型进行调整，评估结果表明，该模型在部分评估能力方面达到了与 GPT-3.5 相媲美的性能。

推进传统中文语言模型的评估：朝着综合基准套件迈进

BriefGPT - AI 论文速递 ·