Detecting LLM Transformed Code and Identifying Its Source Using Coding Style Features
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本文探讨大型语言模型(LLM)生成代码的知识产权风险,构建了LPcode数据集,发现人类代码与LLM生成代码在命名、结构和可读性上存在显著差异。提出的LPcodedec方法在检测任务中表现优异,提升了F1分数和处理速度。
🎯
关键要点
- 本文探讨大型语言模型(LLM)生成代码的知识产权风险。
- 构建了LPcode数据集,包含人类编写代码和LLM生成代码对。
- 研究发现人类代码与LLM生成代码在命名一致性、结构和可读性上存在显著差异。
- 提出的LPcodedec方法在检测任务中表现优异,显著提升了F1分数。
- LPcodedec方法还大幅提高了处理速度。
➡️