小红花·文摘

研究发现，GPT-4在宏观经济学任务中的评分一致性很高，ICC得分在0.94到0.99之间。内容和风格评分相关性为0.87，说明模型能区分这两个标准。即使风格评分下降，内容评分仍保持不变。研究建议进一步评估AI模型的稳健性和可靠性。