小红花·文摘

该研究探讨了大型语言模型（LLMs）在自然语言生成中的不确定性计量，提出了多个统计度量标准。研究发现，语义分散的平均值是评估响应质量的可靠指标。通过校准和自我评估，提升了生成内容的准确性，并强调了透明传达模型可信度的重要性。研究还提出了改进LLMs校准能力的方法，展示了集成不同模型响应以提高事实准确性的有效性。