小红花·文摘

本研究分析了62种大型语言模型自我生成解释的真实性，发现更大规模的模型在真实性上表现更佳。提出的phi-CCT测试表明，指令调优的解释受冗长度影响，未能显著提高真实性。