该研究提出了一种新的框架,结合评估模型和提示性大语言模型,实现对对话的鲁棒性和多语言性评估能力,并在多个基准测试中取得了最先进的成果。
该研究使用预训练语言模型和高质量标注的对话数据,建立了一个基于英文对话评估数据集的多语言对话评估基准测试。最好的基线模型在所有数据集和语言上的平均 Pearson 相关系数分别提升了6.5%和4.6%。该研究旨在解决开放域对话评估指标在其他语言上的泛化性问题。
xDial-Eval是一种基于英文对话评估数据集的多语言对话评估基准测试,建立了自监督和多语言基线模型。最好的基线模型在所有数据集和语言上的平均Pearson相关系数分别提升了6.5%和4.6%。
完成下面两步后,将自动完成登录并继续当前操作。