大型语言模型用于方面级情感分析

原文约400字，阅读约需1分钟。发表于：。

使用零痕迹、少痕迹和微调模型在纵向情感分析任务上评估了 GPT-4 和 GPT-3.5 的性能，结果显示微调的 GPT-3.5 在 SemEval-2014 任务 4 的联合方面术语提取和极性分类任务上获得了 83.8 的最优 F1 分数，比 InstructABSA 提高了 5.7%，但模型参数增加了 1000 倍，推理成本也增加了。我们讨论了不同模型的性价比和分析了它们的典型错误。同时，我们的研究结果表明，在零痕迹和少痕迹环境中，详细提示可以提高性能，但对于微调模型来说并非必要。这些证据对于在 ABSA 中使用 LLMs 时面临提示工程和微调选择的实践者具有相关性。

该研究评估了 GPT-4 和 GPT-3.5 在纵向情感分析任务上的性能，结果显示微调的 GPT-3.5 在 SemEval-2014 任务 4 上获得了最优 F1 分数。详细提示可以提高性能，但对于微调模型来说并非必要。这些证据对于在 ABSA 中使用 LLMs 时面临提示工程和微调选择的实践者具有相关性。