本研究探讨了大型语言模型(LLMs)的自信度及其可靠性,揭示了在高自信度下模型可能出现错误回答的现象。提出了MONITOR度量方法来评估模型的一致性,并发现用户对模型可信度的感知受到解释的影响。研究强调了改进模型置信度估计的重要性,并提出了一个新框架以全面评估多个答案的可信度,从而提升模型的校准能力。
本研究探讨了大规模语言模型(LLMs)在开放领域问题回答中的表现,发现检索增强可以提高其对知识边界的感知,但结果质量受其依赖程度影响。研究还揭示了LLMs在自信度、准确度和判断能力方面的特征。
完成下面两步后,将自动完成登录并继续当前操作。