钟意博客 ·

大语言模型的不确定性

💡 原文中文，约4600字，阅读约需11分钟。

📝

内容提要

在工程实践中，即使设置temperature=0和seed=0，LLM的输出仍然无法保证完全确定性，原因包括采样配置和数值误差等。目标应是控制模型行为在可接受的稳定性范围内，而非追求绝对一致性。建议通过参数调整、缓存和上层逻辑来应对不确定性，LLM更适合作为辅助决策工具。

🎯

🔎

大语言模型（LLM）输出的不确定性源于多个层面，包括采样配置、数值误差和批量调度等。即使在理想条件下（如temperature=0和seed=0），也无法实现完全一致的输出。这提醒我们在使用LLM时，需关注这些潜在的影响因素，以便更好地理解模型的行为。

在工程实践中，追求模型输出的绝对一致性几乎不现实。相反，建议通过调整参数、使用缓存和上层逻辑来控制模型行为在可接受的稳定性范围内。这种方法不仅能提高决策的可靠性，还能有效应对模型输出的随机性。

在云端API中，批量处理和浮点计算的差异可能导致输出不一致。用户无法控制每个请求的处理顺序，因此在设计系统时，应考虑到这种非确定性，避免将LLM作为唯一的决策依据，而应将其视为辅助工具。

❓

LLM的输出不确定性源于采样配置、数值误差、批量调度等多个层级因素。

应通过参数调整、缓存和上层逻辑来控制模型行为在可接受的稳定性范围内。

temperature越高，输出分布越平，越低则趋向于贪婪解码，理论上temperature=0会极端放大最大logit。

输出不一致可能由于批次和浮点计算的差异，导致浮点加法顺序变化和不同的并行策略。

可以通过禁用采样、固定随机种子和开启框架的确定性模式来提高输出的确定性。

LLM更适合作为辅助决策工具，而非唯一权威，适合处理带噪声的推理任务。

🏷️