本文研究了自动机器翻译度量在句子级别中区分好的翻译和坏的翻译的可靠性,并在三个下游跨语言任务上评估了最广泛使用的MT度量的段落级别性能。作者建议将来的MT指标应该被设计成产生错误标签而不是得分,以便于外在评估。
该文介绍了一种综合多个新闻来源信息的媒体偏见检测方法,以句子级别的政治偏见检测为例。通过采用偏见敏感和目标感知的数据增强方法,结合预训练模型,在 BASIL 数据集上进行了实验,取得了 58.15 的 F1 得分,优于先前方法。
本文研究了自动机器翻译度量在句子级别中区分好坏翻译的可靠性,并研究了在大平台中放置机器翻译组件的成功率检测中MT度量的有用性。通过评估最广泛使用的MT度量在三个跨语言任务上的性能,发现度量标准与下游结果的相关性微不足道。神经度量提供的分数大多数不可解释。分析表明,将来的MT指标应设计成产生错误标签而不是得分,以便于外在评估。
完成下面两步后,将自动完成登录并继续当前操作。