研究发现,大规模预训练语言模型(LLM)在因果推理中表现有限。实验显示,人类在因果冲突时阅读时间更长,但在逻辑条件下相似。即使事件未明确提及,人类能通过脚本知识推断结果。最新的LLM如GPT-3与人类行为较一致,但仍难以整合脚本知识,无法准确预测某些因果关系。
通过大规模预训练语言模型引入了名为Neural PG-RANK的新型训练算法,使用Plackett-Luce排序策略实例化语言模型,提供了合理的端到端训练方法,并与下游决策质量相统一。实验证明,Neural PG-RANK在领域内表现出卓越性能提升,并在下游问答任务中实现了跨领域泛化。
大规模预训练语言模型在Winograd Schema Challenge上有所提高,但对最小程度影响人类理解的例子的语言扰动敏感。人类在预测中更稳定和一致,维持更高的绝对性能。在大规模的专门任务数据集上微调可以解决这些问题。
大规模预训练语言模型在Winograd Schema Challenge上表现提高,但对最小程度影响人类理解的例子的语言扰动敏感。人类在预测中更稳定和一致,在非联想实例上表现更好。微调可以解决这些问题。
完成下面两步后,将自动完成登录并继续当前操作。