小红花·文摘

SeaEval是一个多语种基础模型的评估基准，研究了模型对自然语言的理解、推理能力以及对文化实践、细微差别和价值观的理解。研究发现模型在给予释义指令时表现出不同的行为，需要更具有泛化能力的语义表示和增强的多语种上下文化能力。