Detecting LLM Transformed Code and Identifying Its Source Using Coding Style Features

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本文探讨大型语言模型(LLM)生成代码的知识产权风险,构建了LPcode数据集,发现人类代码与LLM生成代码在命名、结构和可读性上存在显著差异。提出的LPcodedec方法在检测任务中表现优异,提升了F1分数和处理速度。

🎯

关键要点

  • 本文探讨大型语言模型(LLM)生成代码的知识产权风险。
  • 构建了LPcode数据集,包含人类编写代码和LLM生成代码对。
  • 研究发现人类代码与LLM生成代码在命名一致性、结构和可读性上存在显著差异。
  • 提出的LPcodedec方法在检测任务中表现优异,显著提升了F1分数。
  • LPcodedec方法还大幅提高了处理速度。
➡️

继续阅读