小红花·文摘

本研究探讨了大语言模型（LLMs）作为数学推理任务的判断者，填补了这一领域的研究空白。研究发现，LLMs在提升任务表现方面效果有限，但能够识别更优模型，且判断与模型表现之间存在明显相关性。这一发现为评估和利用LLMs提供了新的统计分析视角。

从计算到裁决：考察大语言模型在数学推理任务中的表现

BriefGPT - AI 论文速递 ·

本文探讨了实体链接系统的评估问题，提出了更公正的方法，并通过多个基准测试评估现有实体链接器的优缺点。研究表明，基于简单索引的候选生成方法在低资源语言中表现优越，神经实体链接系统的设计特征与经典方法进行了比较，强调了其在博物馆数据和自然语言处理中的应用潜力。

无候选集下的实体链接的统一考察

BriefGPT - AI 论文速递 ·

评估是评估系统达到预期目标的方法。联合学习是一种隐私保护机器学习方法，允许多个参与方共同训练模型。本文回顾了现有研究中的评估目标和指标，并介绍了FedEval平台，提供了联合学习算法的评估框架。讨论了联合学习评估的挑战和未来研究方向。

联邦学习中的贡献评估：现有方法的考察

BriefGPT - AI 论文速递 ·

骑车去看房车展，再去看看虹桥的大飞机

阿锋的小宇宙 ·

写了两个月的长文发了，关于2010年代日本动画电影的考察和评论，六万字分成三篇。这个叫“诗性电影”的公众号是美院周佳鹂教授整的电影内容平台，比较偏学术。这次约稿是之前给我担任过编辑的沈念老师找我，说这个平台大概要整一个2010年代日本电影的专题（其他文章很推荐上这个公众号看看），其中想要有一个涉及动画的板块，于是就拉上友人 rocefactor...

“我们”的现实正蠢蠢欲动——二十一世纪 10 年代日本动画电影关于“真实”的转向考察

知乎每日精选 ·

我的文章保存在哪里？会保存多久？保存在各个矿工 (Miner / Witness Node) 的区块链上；很可能是永久保存。和大多数区块链技术一样，一个矿工必须有完整的节点信息才可以进行挖矿。当然，具体的挖矿形式有一些区别，steem不需要超强的计算能力去破解hash，但是要求很低的网络延迟。

对Steem的一些细节考察 / A closer look to Steem

贺叶霜的树 ·