小红花·文摘

本研究提出了一种利用大型语言模型（LLMs）进行数据注释的新方法，旨在解决大规模数据集注释的高成本和低质量问题。通过少量学习，生成的数据质量超过第三方供应商，同时有效降低成本。

Using Large Language Models to Generate Labels for Predicting Usage Options of Product Reviews

BriefGPT - AI 论文速递 ·

本文探讨了自然语言处理中的数据注释挑战，提出了一种自动化的数据选择架构，以优化少样本学习的数据集构建。通过逐个选择注释，减少注释数量并保持知识完整性，同时强调多样化数据的收集。研究发现注释数据质量与展示顺序相关，通过优化顺序和主动学习算法提高数据准确性。提出的框架在多个数据集上表现优于以往方法，提升了预测性能并降低了注释预算。

数据分配的选择性标注：这些数据应该交给专家进行标注，而不是模型

BriefGPT - AI 论文速递 ·

本研究比较了最佳-最差比较法与评分尺度法在数据注释中的可靠性，发现最佳-最差比较法更为可靠。通过自然语言解释训练大型语言模型，提高标注数据质量。研究了情感强度对标注一致性的影响，并提出基于模型的方法来优化注释任务，强调多样化数据的重要性。创建了标记情感强度的推文数据集，利用最佳-最差比例技术提高一致性，并分析情感类别的有序性及其对模型性能的影响。

您是一个专家标注员”：情绪强度建模的自动最佳最差标度标注

BriefGPT - AI 论文速递 ·

本文探讨了 ChatGPT 在情感识别方面的能力，可以作为交互式聊天机器人、数据注释和心理健康分析等应用的基础。实验证明 ChatGPT 在情感识别方面具有合理的可重复性，但性能会随不同的情感标签和数据集而异。数据集和标签选择对 ChatGPT 的情感识别性能具有显著影响，通过微调可以提高其性能。

ChatGPT 情绪识别中的偏见

BriefGPT - AI 论文速递 ·