本研究分析了62种大型语言模型自我生成解释的真实性,发现更大规模的模型在真实性上表现更佳。提出的phi-CCT测试表明,指令调优的解释受冗长度影响,未能显著提高真实性。
完成下面两步后,将自动完成登录并继续当前操作。