小红花·文摘

本文提出了社会责任数据的概念，以解决大型语言模型在多语言特别是“低资源语言”上的表现不佳的问题。通过定性研究、社区合作和参与式设计的方法，提供了十二条建议，以确保在收集这些语言的数据时，不会重复历史上的剥削性做法，并关注文化安全和数据主权。该研究强调了以社会责任为导向的数据收集对语言保护和跨社区沟通的重要性。