小红花·文摘

本研究探讨了ChatGPT等复杂预测模型的可靠性。通过分析10万条关于四位拉美总统的西班牙语评论，发现提示结构的细微变化显著影响情感分类结果，挑战了大型语言模型在分类任务中的稳健性和信任度。