本文探讨了大语言模型(如LSTM和Transformer)在序列概率评估中的低估现象,尤其是在低概率序列中更为明显。研究发现,模型对不规范序列的概率高估导致了这种差距。对GPT-3.5和GPT-4的评估显示,输出概率影响模型准确性,尤其在低概率情况下表现不佳。因此,建议在使用大语言模型时需谨慎,并将其视为独特系统。
完成下面两步后,将自动完成登录并继续当前操作。