本研究提出BloomScrub方法,旨在解决大型语言模型预训练中的版权侵权问题。该方法结合引用检测与改写技术,有效识别和处理侵权内容,降低风险,实验结果验证了其实用性与潜力。
通过使用双向长短期记忆网络和环境信息,可以检测需要引用的句子。构建了一个比以前数据集大数个数量级的新数据集,在标准数据集和新数据集上表现出很高的性能。使用可解释的模型揭示了促进和抑制引用的特定语言的运用。检查了模型的错误预测,并发现了人类引用行为和来源数据中的系统性错误。提供了新数据集、代码和基于网络的工具给社区。
完成下面两步后,将自动完成登录并继续当前操作。