宣称检查价值检测:LLM 对标注指南的理解程度如何?
原文中文,约600字,阅读约需2分钟。发表于: 。通过使用零 - 和少 - 次学习模型,将事实和价值评估标准直接用于提示,我们评估了 LLM 在五个不同领域的声明检测和可信度检测数据集上的预测和校准准确性,并发现最佳的提示详细程度取决于领域,提供上下文信息并不改善性能,可信度评分可以直接用于生成可靠的评级。
在线社交媒体平台的扩展导致了在线内容消费的激增,但也为传播虚假主张和错误信息铺平了道路。研究人员引入了一个新的任务,即细粒度的主张核查价值,通过识别主张是否值得核查来提供可能的人类依据。他们使用了一个手动注释的大规模 Twitter 数据集 CheckIt,并与一个统一的方法 CheckMate 进行了基准测试。最后,他们验证了将核查价值因素整合到检测值得进行事实核查的主张中的有效性。