研究发现,GPT-4在宏观经济学任务中的评分一致性很高,ICC得分在0.94到0.99之间。内容和风格评分相关性为0.87,说明模型能区分这两个标准。即使风格评分下降,内容评分仍保持不变。研究建议进一步评估AI模型的稳健性和可靠性。
完成下面两步后,将自动完成登录并继续当前操作。