论文研究了如何通过黑箱方法估计大型语言模型的输出置信度,而无需访问内部参数。研究者使用校准数据、生成对抗样本和评估输出稳定性的方法,并在多种语言任务中测试,揭示了这些方法的优缺点。尽管有局限性,这些方法为提高模型可信度和透明度提供了重要见解,帮助在高风险应用中安全使用LLM。
完成下面两步后,将自动完成登录并继续当前操作。