本研究揭示了多语言基准评估中的英语偏见,尽管投入大量资金,非英语语言应用仍不足。强调创建符合文化和语言特征的基准的重要性,并呼吁全球合作以促进公平的技术进步。
本研究探讨了大语言模型中的基准污染问题,发现七个流行的多语言基准在多个模型中均存在污染迹象。这一发现为学术界选择更优的多语言评估基准提供了参考。
本研究提出了RiSAWOZ中文人机对话数据集,以支持对话系统的基准比较。EVA和EVA2.0模型在多轮交互中表现优异。此外,研究探讨了多语言对话评估,推出了DiQAD数据集和DIALIGHT工具包,以促进多语言任务导向对话系统的评估。最后,提出了评估英语作为第二语言的框架,揭示了微级别特征与交互质量的关系。
本文探讨了自然语言推理(NLI)在文本生成中的应用,研究表明NLI模型能提高生成文本的质量,尤其是中立类文本。同时,提出了新的数据集和方法以降低数据偏差,并在多语言评估中取得良好效果,推动个性化医疗领域的研究。
该研究提出了一种新框架,结合评估模型与提示性大语言模型,以提升对话系统的鲁棒性和多语言评估能力。通过多项基准测试,验证了提示性大语言模型的有效性,并探讨了其在个性化推荐和对话评估中的应用,强调了提示设计对模型性能的重要性。
通过参数高效微调可以提高大语言模型的性能,对多语言评估表明英语和其他语言性能差距大。微调是弥合差距的有效方法。本研究通过对合成多语言数据进行微调,评估了模型在涵盖23种语言的五个任务上的性能影响。发现微调较小的开源模型可以弥合模型性能差距,但对英语性能有所降低。微调有时可以提高低资源语言性能,但在高资源语言上性能可能下降。
通过参数高效微调可以提高大语言模型的性能,对多语言评估表明英语和其他语言性能差距大。微调是弥合差距的有效方法。本研究通过对合成多语言数据进行微调,评估了模型在涵盖23种语言的五个下游任务上的性能影响。发现微调较小的开源模型可以弥合模型性能差距,但对英语性能有所降低。微调有时可以提高低资源语言性能,但在高资源语言上性能可能下降。
完成下面两步后,将自动完成登录并继续当前操作。