本研究探讨大型语言模型(LLMs)在与人类交互时的不确定性表达问题。现有模型因过度自信而导致错误,影响用户信任。研究提出新的框架,通过评估多个候选答案的可信度,改善模型的校准能力。实验表明,该方法显著提高了模型输出的准确性和用户信任,尤其在高风险应用中至关重要。
本研究探讨了大型语言模型(LLM)在文本注释中的性能,强调数据集和任务类型对结果的影响。提出了一种新框架,通过评估多个候选答案的可信度来改善模型的置信度校准。实验结果显示,LLM在语义等效输入中的置信度不稳定,需改进模型参数化知识的稳定性。此外,LLM尚未能系统替代人类评审员。
完成下面两步后,将自动完成登录并继续当前操作。