BriefGPT - AI 论文速递

BriefGPT - AI 论文速递 -

软件审查中 ChatGPT 不正确性检测

通过调查 135 名软件工程师对 Generative AI-based chatbots 像 ChatGPT 在软件工程任务中的使用,我们发现他们都想将 ChatGPT 用于软件库选择等任务,但也常常担心 ChatGPT 回复的真实性。我们开发了一套技术和一个名为 CID(ChatGPT 错误检测器)的工具,通过询问环境上类似但内容上有差异的问题(使用利用文本中变形关系的方法),对 ChatGPT 的回复进行自动测试和检测不正确的回复。CID 的基本原则是对于一个给定的问题,与其他回复(在多个问题的不同表达中)不同的回复很可能是不正确的回复。在一个关于软件库选择的基准研究中,我们展示 CID 可以以 0.74 至 0.75 的 F1 分数来检测 ChatGPT 中的不正确回复。

通过调查软件工程师对Generative AI-based chatbots在软件工程任务中的使用,发现他们想将ChatGPT用于软件库选择等任务,但担心回复的真实性。开发了一个名为CID的工具,通过询问类似但内容有差异的问题,对ChatGPT的回复进行自动测试和检测不正确的回复。CID可以以0.74至0.75的F1分数来检测ChatGPT中的不正确回复。

chatgpt

相关推荐 去reddit讨论

热榜 Top10

LigaAI
LigaAI
eolink
eolink
观测云
观测云
Dify.AI
Dify.AI

推荐或自荐