StatLLM:评估大型语言模型在统计分析中表现的数据集

📝

内容提要

本研究解决了大型语言模型(LLMs)在生成统计分析代码时准确性评估缺乏基准数据集的问题。通过介绍StatLLM数据集,提供了丰富的统计分析任务、LLM生成的SAS代码以及人类评估分数,为评估和提高LLM在统计编码中的表现提供了新工具。研究表明,该数据集在自然语言处理指标评估、LLM性能提升及下一代统计软件开发方面具有重要潜力。

➡️

继续阅读