小红花·文摘

该研究使用一个包含31种南亚语言的多语种共指解析翻译数据集训练了两个模型。最佳模型在印地语黄金集上的得分分别为64和68，并指出了当前共指评估指标的局限性，呼吁开发更合适的评估指标。