The Authenticity of Self-Generated Explanations in Large Language Models on Common Sense Tasks: Bigger is Better, Instruction Tuning Allows Trade-offs but Lacks Pareto Advantage

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究分析了62种大型语言模型自我生成解释的真实性,发现更大规模的模型在真实性上表现更佳。提出的phi-CCT测试表明,指令调优的解释受冗长度影响,未能显著提高真实性。

🎯

关键要点

  • 本研究分析了62种大型语言模型自我生成解释的真实性。

  • 较大规模的模型在真实性指标上表现更佳。

  • 提出了phi-CCT测试,简化了相关性反事实测试。

  • 指令调优的解释受到冗长度的影响,未能显著提高真实性。

  • 与同等规模的预训练模型相比,指令调优的解释真实性水平未能根本提升。

➡️

继续阅读