本研究通过引入Crowd-Calibrator方法解决了自然语言处理中的标注者分歧与标签不确定性问题。实验结果表明Crowd-Calibrator在主观任务中优于选择性预测基线,突显了将人类决策纳入模型预测的价值。
本文研究了将大型语言模型与说明相结合是否能提高上下文学习效果,发现使用不同样式的说明对四个LLM的性能仅会带来小至中等的准确性提高,但text-davinci-002能带来更实质性的提高。文章通过训练校准器使用自动提取的评分评估说明的可靠性,从而在全部数据集上实现后处理性能的提高。
完成下面两步后,将自动完成登录并继续当前操作。