神经代码补全模型是否使用了我的代码?一种成员推断方法
原文中文,约300字,阅读约需1分钟。发表于: 。我们研究了当前神经代码完成模型的法律和道德问题,通过使用会员推理方法来确定给定代码样本的成员身份。实验证明 LSTM 和 CodeGPT 模型存在会员泄露问题,而 CodeGen 和 StarCoder 模型的数据成员资格很难检测,有待进一步改进。
本研究提出了一种基于深度学习模型的自然语言到编程语言的建议系统,可以根据自然语言的意图建议源代码片段,并扩展源代码的自动补全功能。该系统通过神经模型直接生成源代码标记,提高性能,并且在BLEU-4指标上超过了神经语义解析器TranX的表现。该系统还可以用于生成源代码的自然语言文档,并提出了基于RoBERTa的掩码语言模型来扩展该系统用于代码补全。