本文探讨了大型语言模型(LLM)如何有效传达其内部答案分布的不确定性。研究提出了SelfReflect指标,用于评估LLM生成的摘要与其答案分布之间的差异。结果表明,现代LLM在表达不确定性方面存在不足,但通过多次输出采样和反馈,可以生成更准确的摘要。这为未来LLM不确定性沟通的发展提供了新思路。
完成下面两步后,将自动完成登录并继续当前操作。