XForecast:评估时间序列预测的自然语言解释
发表于: 。本研究解决了时间序列预测模型解释性不足的问题,提出了基于可模拟性的两种新的性能评估指标,以评估自然语言解释的有效性。实验表明,这些指标能有效区分优质与劣质的解释,并与人类判断一致。研究发现,在时间序列数据的解释生成中,数字推理能力比模型规模更为重要。
本研究解决了时间序列预测模型解释性不足的问题,提出了基于可模拟性的两种新的性能评估指标,以评估自然语言解释的有效性。实验表明,这些指标能有效区分优质与劣质的解释,并与人类判断一致。研究发现,在时间序列数据的解释生成中,数字推理能力比模型规模更为重要。