Can Large Language Models Replace Human Evaluators? An Empirical Study of LLMs as Judges in Software Engineering

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究探讨大型语言模型(LLMs)在软件工程中作为评判者的有效性。研究表明,LLM在代码翻译和生成任务中的评估与人工评估的一致性显著提高,显示出其模仿人类评估的潜力。

🎯

关键要点

  • 本研究探讨大型语言模型(LLMs)在软件工程中作为评判者的有效性。
  • 研究提出了一种新的评估方法,将LLM作为评判者来评价生成代码和文本的质量。
  • 通过对比LLM评估与人工评估的一致性,发现LLM在代码翻译和生成任务中的评估相关性显著提高。
  • 输出导向的LLM评估方法能够有效模仿人类评估,展现出良好的应用潜力。
➡️

继续阅读