评估大型语言模型输出的一致性和可重复性:跨多个金融和会计任务的证据

📝

内容提要

本研究首次全面评估大型语言模型(LLM)在金融和会计研究中输出的一致性和可重复性。通过对50次独立实验的广泛测试,发现LLM在分类和情感分析任务中表现出近乎完美的可重复性,而在复杂任务中则表现出更大的变异性。尽管LLM输出存在一定的不一致,但下游统计推断依然表现出显著的稳健性,这减轻了对选择性报告有利结果风险的担忧。

➡️

继续阅读