大型语言模型可靠的论点质量标注员吗?
原文中文,约300字,阅读约需1分钟。发表于: 。使用最新的大型语言模型作为论证质量评估的代理者,研究了模型、人类专家和新手评估者之间的一致性,结果表明大型语言模型在大多数质量维度上与人类专家之间具有适度高的一致性,并且使用大型语言模型作为额外的评估者可以显著提高评估者间的一致性,因此提出大型语言模型可以作为自动化论证质量评估的有价值工具,从而加快了大规模论证数据的评估过程。
大型语言模型(LLMs)的能力不断增长,但也引发了对其潜在滥用创建个性化、令人信服的错误信息和宣传的担忧。研究发现LLMs在区分强弱论点、预测立场和吸引力等任务中能与人类持平,合并不同LLMs的预测可以提高性能。该研究对评估和监测LLMs的潜在影响和能力做出了贡献。