一分钟读论文:《诊断LLM裁判的可靠性:共形预测集与传递性违规》
Micropaper
·
一分钟读论文:《Humanity’s Last Exam:评估 AI 能力的专家级学术问题基准》
Micropaper
·
语言模型为何会产生幻觉?
KDnuggets
·
Kaggle推出游戏竞技场以基准测试AI模型在策略游戏中的表现
InfoQ
·
拓扑感知图像分割的挑战
BriefGPT - AI 论文速递
·