小红花·文摘 - 小红花技术领袖俱乐部

一分钟读论文：《通过智能体轨迹解剖模型行为》

一分钟读论文：《通过智能体轨迹解剖模型行为》

Micropaper ·

本研究分析了2699篇关于微物理参数化的文献，揭示了不同参数化方案的使用模式及其在降水模拟中的系统偏差。结果显示，大多数参数化方案高估了降水量，尤其在中国和东南亚地区，强调了人工智能在文献研究中的应用价值。

Using Large Language Models for Literature Reviews: Usages and Systematic Biases of Microphysics Parametrizations in 2699 Publications

BriefGPT - AI 论文速递 ·

本文探讨了大型语言模型（LLMs）在内容质量评估中的系统偏差，并提出了两种校准策略以减轻这种偏差。研究表明，LLMs在评估中存在显著偏见，影响其与人类判断的一致性。作者开发了FairEval工具包，结合人工注释，促进未来研究的开展。

缓解大型语言模型评估的偏差

BriefGPT - AI 论文速递 ·

本文研究了大型语言模型（LLMs）的人格特征，发现其在不同情境下表现出显著差异。通过心理测量测试，评估了LLMs的个性可靠性与有效性，指出现有自我评估测试存在偏差，无法准确测量机器的人格。研究强调需谨慎对待LLMs的个性定义与评估方法。

自评、展示和认可：大型自然语言模型中的人格评价综述

BriefGPT - AI 论文速递 ·

大型语言模型（LLMs）对个性测试的反应存在系统偏差，不能像人类测试结果一样解释。设计用于“引导”LLMs模拟特定个性类型的提示变化也不遵循人类样本中的五个独立个性因素。因此，在对LLMs的“个性”进行结论之前，应更加关注测试的有效性。

评估大型语言模型在心理测量工具上的可靠性

BriefGPT - AI 论文速递 ·