本研究评估了多语种大型语言模型的性能,发现GPT-4o和Llama-3 70B模型在大多数Indic语言中表现最佳。人类和语言模型的一致性较高,但在直接评估中特别是对于孟加拉语和奥迪亚语等语言,一致性下降。GPT评估器存在自我偏见。
该研究探讨了多语种大型语言模型中有害信息的传播和反学习方法的有效性。研究发现,虚假信息会在不同语言之间传播,损害生成内容的完整性和可靠性。标准反学习技术只关注英文数据,无法有效减轻多语种环境中有害内容的传播。全面反学习策略对于增强多语种大型语言模型的安全性和可靠性至关重要。
完成下面两步后,将自动完成登录并继续当前操作。