小红花·文摘

本研究探讨了大型语言模型（LLM）在文本注释中的性能，强调数据集和任务类型对结果的影响。提出了一种新框架，通过评估多个候选答案的可信度来改善模型的置信度校准。实验结果显示，LLM在语义等效输入中的置信度不稳定，需改进模型参数化知识的稳定性。此外，LLM尚未能系统替代人类评审员。