小红花·文摘

本研究探讨了大型语言模型（LLMs）的自信度及其可靠性，揭示了在高自信度下模型可能出现错误回答的现象。提出了MONITOR度量方法来评估模型的一致性，并发现用户对模型可信度的感知受到解释的影响。研究强调了改进模型置信度估计的重要性，并提出了一个新框架以全面评估多个答案的可信度，从而提升模型的校准能力。

大型语言模型在其概率或口头信心中的诚实性比较

BriefGPT - AI 论文速递 ·

本研究探讨了大规模语言模型（LLMs）在开放领域问题回答中的表现，发现检索增强可以提高其对知识边界的感知，但结果质量受其依赖程度影响。研究还揭示了LLMs在自信度、准确度和判断能力方面的特征。

为复杂信息抽取任务微调和对齐问答模型

BriefGPT - AI 论文速递 ·