本研究提出了一种新方法,通过专家利用现有基准生成概率估计,解决大型语言模型潜在风险的测量问题,展现出良好的定量评估前景。
本研究提出ConTestS框架,解决语言模型概率估计中的一致性问题。通过统计测试评估,发现Masked Language Models和自回归模型在预测一致性上有显著差异,尤其自回归模型不一致性更明显。
完成下面两步后,将自动完成登录并继续当前操作。