Apple Machine Learning Research ·

九位评审，两个有效投票：相关错误削弱大型语言模型评估小组

Q: 增加评审人数是否能改善评审小组的结果？

增加评审人数未显著改善结果。

Q: 使用更智能的聚合算法能否提高评审小组的准确性？

使用更智能的聚合算法未显著改善结果。

💡 原文英文，约400词，阅读约需2分钟。

📝

内容提要

研究发现，九个大型语言模型（LLM）组成的评审小组仅提供约两个独立投票的信息。由于模型在相同项目上犯相同错误，评审小组的准确性比独立投票低8-22个百分点。增加评审人数或使用更智能的聚合算法未显著改善结果，表明评审小组的相关性是主要瓶颈，无法替代真正独立的评估。

🎯

关键要点

九个大型语言模型（LLM）组成的评审小组仅提供约两个独立投票的信息。
模型在相同项目上犯相同错误，导致评审小组的准确性比独立投票低8-22个百分点。
增加评审人数或使用更智能的聚合算法未显著改善结果。
评审小组的相关性是主要瓶颈，无法替代真正独立的评估。

🔎

延伸解读

评审小组的局限性

研究表明，尽管由九个大型语言模型组成的评审小组看似能够提供多样化的评估，但实际上它们的独立性严重不足。模型之间的相关错误导致评审结果的准确性大幅下降，这提示我们在依赖模型评估时需谨慎，不能仅依靠数量来提升评估质量。

独立评估的重要性

该研究强调了独立评估在模型评估中的关键作用。即使增加评审人数或采用更复杂的聚合算法，也无法弥补模型间的相关性问题。这表明，真正的独立评估仍然是确保评估准确性的必要条件，尤其在关键应用场景中更需重视。

模型选择的影响

研究发现，最佳单一模型的表现可以与整个评审小组相媲美，甚至超越。这提示我们在选择评估模型时，质量比数量更为重要。开发者应关注模型的独立性和准确性，而非仅仅追求评审小组的规模。

❓

延伸问答

大型语言模型评审小组的有效投票数量是多少？

大型语言模型评审小组仅提供约两个独立投票的信息。

评审小组的准确性比独立投票低多少？

评审小组的准确性比独立投票低8-22个百分点。

增加评审人数是否能改善评审小组的结果？