小红花·文摘

本研究提出了一套自动评估指标，旨在改进图像再创造的评估机制。该指标基于机器翻译，涵盖对象、嵌入和视觉语言模型。研究发现，专有视觉语言模型在文化相关性和语义等价性方面表现最佳，而视觉编码器在视觉相似性测量上表现突出，为图像再创造的自动评估提供了理论和实践框架。

BriefGPT - AI 论文速递 ·

本研究提出了一套基于明示错误分析及 MQM 框架的机器翻译评估方法，并应用于 WMT 2020 挑战赛。评估结果显示，自动评估指标基于预训练嵌入的表现足以胜过人工众包评估，为今后的研究提供公共语料库。

BriefGPT - AI 论文速递 ·

本文提出了用于评估文本到视频生成的基准FETV，并对四个T2V模型进行了手动评估。研究发现自动评估指标与人工评估相关性较差，提出了两个新的自动评估指标与人工评估相关性更高。

BriefGPT - AI 论文速递 ·

本研究提出了一种简单的降低标注成本的方法，通过分层抽样和控制变量等技术，结合成员身份信息和自动评估指标，在固定标注预算下提高准确性。在测试集上，相比纯随机抽样，平均误差降低了20%。易于实现且适用于类似结构的问题。

BriefGPT - AI 论文速递 ·