The Authenticity of Self-Generated Explanations in Large Language Models on Common Sense Tasks: Bigger is Better, Instruction Tuning Allows Trade-offs but Lacks Pareto Advantage
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究分析了62种大型语言模型自我生成解释的真实性,发现更大规模的模型在真实性上表现更佳。提出的phi-CCT测试表明,指令调优的解释受冗长度影响,未能显著提高真实性。
🎯
关键要点
-
本研究分析了62种大型语言模型自我生成解释的真实性。
-
较大规模的模型在真实性指标上表现更佳。
-
提出了phi-CCT测试,简化了相关性反事实测试。
-
指令调优的解释受到冗长度的影响,未能显著提高真实性。
-
与同等规模的预训练模型相比,指令调优的解释真实性水平未能根本提升。
➡️