小红花·文摘

本文提出了一种通过在版权训练数据中嵌入水印的方法，检测大语言模型训练中的数据不当使用。构建了统计检验框架，优化拒绝阈值以控制错误率，验证了其有效性，具有隐私保护和法律合规的重要价值。