本研究分析了人类与大型语言模型生成文本的差异,主要体现在具体性、文化细节和多样性。通过16个数据集的案例研究,提出了有效的提示方式以缩小这些差距,检测准确率达到87.6%。
该研究提出了一种新的度量标准,用于评估无图像参考的标题文本的具体性和相关性。该方法利用强基模型衡量多模态表示中的视觉-语义信息损失,并证明与人类对文本具体性的评估相关。同时,使用该度量标准进行筛选可以选择高质量的样本,以进行高效训练。
该文章介绍了一个新的数据集RAVE,用于欧洲人权法上的案件结果分类。作者建立了一个两层次的与任务无关的分类系统,并补充了与案例结果分类相关的子类别。作者进一步评估了最先进的案件结果分类模型在RAVE上的可解释性,并发现模型与专家之间的一致性有限。
本文研究了引导语言对幻觉出现的影响,发现正式性和具体性较高的引导语言会减少幻觉出现,但可读性与幻觉出现的关系不确定。
完成下面两步后,将自动完成登录并继续当前操作。