普林斯顿大学的研究探讨了使用大型语言模型(LLM)评估LLM的可靠性。研究发现,尽管整体传递性违规率较低,但有33-67%的文档存在不一致性。论文提出通过分裂共形预测集来量化评估可靠性,并指出评估标准的选择对可靠性影响大于裁判模型,选择相关性强的评估标准可以提升评估质量。
完成下面两步后,将自动完成登录并继续当前操作。