小红花·文摘

本文通过实验分析了大型语言模型验证公共健康主张的能力，并提供了解释或证明其真实性评估的能力。实验结果显示，在零提示场景下，GPT-4表现出色，但在少提示和参数高效微调的情况下，开放源模型能够填补性能差距，并在某些情况下超过GPT-4。人工评估显示了更多细微差异，并指出了黄金解释可能存在的问题。