Apple Machine Learning Research ·

推理的剃刀：推理提高准确性但可能在安全和幻觉检测的关键操作点上损害召回率

Q: 推理在大型语言模型中的作用是什么？

推理能提高大型语言模型的整体准确性。

Q: 如何结合推理增强生成和无推理以提高性能？

简单的模式集成可以恢复两者的优点。

💡 原文英文，约400词，阅读约需2分钟。

📝

内容提要

研究表明，推理在大型语言模型（LLMs）中能提高整体准确性，但在安全和幻觉检测等对精确度要求高的任务中表现不佳。推理增强生成（Think On）优于无推理（Think Off），但在低假阳性率下效果较差。推理被视为双刃剑，适合一般准确性，但不适合严格精度要求的应用。

🎯

关键要点

推理在大型语言模型（LLMs）中能提高整体准确性。
推理在安全检测和幻觉检测等对精确度要求高的任务中表现不佳。
推理增强生成（Think On）在整体准确性上优于无推理（Think Off），但在低假阳性率下效果较差。
无推理（Think Off）在精确度敏感的任务中表现更好。
推理被视为双刃剑，适合一般准确性，但不适合严格精度要求的应用。

🔎

延伸解读

推理的双刃剑

推理在大型语言模型中的应用被视为双刃剑。虽然它能提升整体准确性，但在安全和幻觉检测等对精度要求极高的任务中，推理的效果却不尽如人意。这意味着在选择模型时，开发者需要权衡推理带来的准确性提升与可能导致的召回率下降。

低假阳性率的重要性

在精确度敏感的任务中，低假阳性率至关重要。研究表明，无推理模式在这些任务中表现更佳，因此在实际应用中，开发者应优先考虑无推理的选项，尤其是在安全性和准确性要求高的场景下。

模型选择的实用建议

在选择使用推理的模型时，开发者应考虑具体应用场景的需求。如果任务允许较高的假阳性率，推理增强生成可能是一个不错的选择；但在需要严格精度的情况下，采用无推理模式将更为合适。

❓

延伸问答

推理在大型语言模型中的作用是什么？

推理能提高大型语言模型的整体准确性。

推理在安全和幻觉检测任务中的表现如何？

推理在这些精确度要求高的任务中表现不佳。

什么是推理增强生成（Think On）和无推理（Think Off）的区别？

推理增强生成在整体准确性上优于无推理，但在低假阳性率下效果较差。

在精确度敏感的任务中，哪种推理模式表现更好？

无推理（Think Off）在精确度敏感的任务中表现更好。

推理被视为双刃剑的原因是什么？

推理适合一般准确性，但不适合严格精度要求的应用。

如何结合推理增强生成和无推理以提高性能？