本文通过实验分析了大型语言模型验证公共健康主张的能力,并提供了解释或证明其真实性评估的能力。实验结果显示,在零提示场景下,GPT-4表现出色,但在少提示和参数高效微调的情况下,开放源模型能够填补性能差距,并在某些情况下超过GPT-4。人工评估显示了更多细微差异,并指出了黄金解释可能存在的问题。
完成下面两步后,将自动完成登录并继续当前操作。