小红花·文摘

该研究探讨了大型语言模型（LLMs）在自然语言生成中的不确定性计量，提出了多个统计度量标准。研究发现，语义分散的平均值是评估响应质量的可靠指标。通过校准和自我评估，提升了生成内容的准确性，并强调了透明传达模型可信度的重要性。研究还提出了改进LLMs校准能力的方法，展示了集成不同模型响应以提高事实准确性的有效性。

长文本生成中的大型语言模型原子校准

BriefGPT - AI 论文速递 ·

本研究探讨了大型语言模型（LLM）的自信度问题，提出了一种新的置信度估计框架，通过评估多个候选答案的可信度来减轻过度自信。实验结果表明，该框架有效提高了模型的准确性和校准能力，增强了用户对模型输出的信任，尤其在高风险应用中具有重要意义。

通过从过去经验中学习，增强大型语言模型中的自信表达

BriefGPT - AI 论文速递 ·

本文介绍了多种提示调整技术，如Fast Prompt Tuning、统一的Prompt Tuning框架、CP-Tuning和FRPT，旨在提升预训练语言模型的训练效率和性能。研究表明，软提示的迁移性与神经元激活重叠率相关，测试时间提示调整方法能有效提高模型的校准能力和泛化能力。这些技术在文本分类和图像检索等任务中表现优异。

FPT：用于少样本可读性评估的特征提示调整

BriefGPT - AI 论文速递 ·