文章介绍了一个涵盖146种语言对的挑战集ACES,用于评估翻译错误识别能力。通过对WMT 2022和2023的50个度量进行测试,发现不同度量在不同语言现象上表现不佳,尤其是基于大型语言模型的方法。扩展的SPAN-ACES数据集用于评估基于跨度的错误度量,结果显示仍需改进。文章建议构建更好的机器翻译度量,包括专注错误标签、融合多种度量、设计专注源句的策略、关注语义内容,并选择合适模型。
这篇文章介绍了ACES对比挑战集,用于评估翻译准确性的度量标准。测试50个度量标准发现,不同标准在不同语言现象上存在困难,基于大型语言模型的方法表现不佳。文章提出了改进机器翻译度量标准的建议。
本文介绍了ACES对比挑战集,用于评估翻译准确性的度量标准。测试了50个度量标准,发现它们在不同的语言现象上存在困难。扩展了ACES以包括错误跨度注释,并评估了基于跨度的错误度量。最后,提供了构建更好的机器翻译度量标准的建议。
利用自动队列提取系统(ACES)提高医疗领域机器学习的研究可重复性,降低 ML 任务定义门槛,并改善电子健康记录数据集的研究互动方式。
该文研究了使用ACES Challenge Set作为评估标准对WMT 2023的分段级别指标进行基准测试,没有明显的优胜者,建议开发者构建来自不同设计家族的指标集合,并仔细确定多语言嵌入对机器翻译评估的影响。
We’re excited to announce a new learning module focusing on building Adaptive Card Extensions (ACEs) for Microsoft Viva Connections and for upcoming Microsoft Viva Home. The post Learn how to...
完成下面两步后,将自动完成登录并继续当前操作。