本研究提出了一套基于明示错误分析及 MQM 框架的机器翻译评估方法,并应用于 WMT 2020 挑战赛。评估结果显示,自动评估指标基于预训练嵌入的表现足以胜过人工众包评估,为今后的研究提供公共语料库。
本文提出了用于评估文本到视频生成的基准FETV,并对四个T2V模型进行了手动评估。研究发现自动评估指标与人工评估相关性较差,提出了两个新的自动评估指标与人工评估相关性更高。
本研究提出了一种简单的降低标注成本的方法,通过分层抽样和控制变量等技术,结合成员身份信息和自动评估指标,在固定标注预算下提高准确性。在测试集上,相比纯随机抽样,平均误差降低了20%。易于实现且适用于类似结构的问题。
完成下面两步后,将自动完成登录并继续当前操作。