泰国 Winograd Schema:泰语常识推理基准
原文中文,约300字,阅读约需1分钟。发表于: 。通过使用泰语 Winograd 模式集合,对流行的大型语言模型在泰语上的表现进行评估,揭示了它们的优势、局限性,并为当前技术发展提供了一些见解,结果表明尽管 GPT-4 和 Claude-3-Opus 等模型在英语上达到了高准确度,但它们在泰语上的性能显著下降,突出了对多语言常识推理的进一步改进的需求。
大规模预训练语言模型在Winograd Schema Challenge上有所提高,但对最小程度影响人类理解的例子的语言扰动敏感。人类在预测中更稳定和一致,维持更高的绝对性能。在大规模的专门任务数据集上微调可以解决这些问题。