大型多语言语言模型的社会责任数据
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文提出了社会责任数据的概念,以解决大型语言模型在多语言特别是“低资源语言”上的表现不佳的问题。通过定性研究、社区合作和参与式设计的方法,提供了十二条建议,以确保在收集这些语言的数据时,不会重复历史上的剥削性做法,并关注文化安全和数据主权。该研究强调了以社会责任为导向的数据收集对语言保护和跨社区沟通的重要性。
🎯
关键要点
- 提出了社会责任数据的概念,以解决大型语言模型在多语言特别是低资源语言上的表现不佳的问题。
- 采用定性研究、社区合作和参与式设计的方法。
- 提供了十二条建议,确保在收集低资源语言数据时不重复历史上的剥削性做法。
- 关注文化安全和数据主权。
- 强调以社会责任为导向的数据收集对语言保护的重要性。
- 强调以社会责任为导向的数据收集对跨社区沟通的重要性。
➡️