在这项研究中,我们提出了新颖的实验见解,揭示了大型语言模型(LLMs)的韧性,特别是 GPT-4,在经历大规模字符级排列混乱时。我们设计了 Scrambled Bench 套件来评估 LLMs 处理乱序输入的能力,包括恢复乱序句子和回答给定乱序上下文的问题。实验结果表明,大多数强大的 LLMs 表现出类似 typoglycemia...
研究发现,GPT-4在处理乱序输入时表现出惊人的韧性,几乎可以完美地重建乱序的句子为原始句子,编辑距离降低了95%。这揭示了LLMs在处理乱序输入时的强大韧性。