小红花·文摘

本文探讨了大语言模型（如LSTM和Transformer）在序列概率评估中的低估现象，尤其是在低概率序列中更为明显。研究发现，模型对不规范序列的概率高估导致了这种差距。对GPT-3.5和GPT-4的评估显示，输出概率影响模型准确性，尤其在低概率情况下表现不佳。因此，建议在使用大语言模型时需谨慎，并将其视为独特系统。