小红花·文摘

本研究测试了生成预训练转换器（GPT）模型在检测自然语言中的讽刺的应用。结果显示，精调的GPT-3模型在准确性和F1-score方面表现优于之前的模型。零-shot情况下，GPT-4模型的准确性和F1-score较低。每个版本的模型性能可能会有所改善或恶化，需要重新评估性能。