小红花·文摘 - 小红花技术领袖俱乐部

通过对ImageNet上的多个任务进行综合评估，发现尚未实现解缠，同时揭示了在特定任务上表现出色的不确定性估计器，为从业者提供了见解，并指导未来研究。

基准测试不确定性分离：专用任务的专用不确定性

BriefGPT - AI 论文速递 ·

该文介绍了中国法学硕士综合评估基准，将法律能力分为三个层次，第一阶段评估结果显示存在差距。该基准测试可在URL上找到。

LAiW：中国法律大型语言模型基准（技术报告）

BriefGPT - AI 论文速递 ·