本研究提出了一种新方法SCOPE,通过压缩数学推理步骤,显著降低过程注释的计算成本。该方法将自然语言推理转化为代码并归一化,构建压缩前缀树,从而提升性能并节约资源。
本研究提出了一种新方法,通过傅里叶展开生成令牌ID的嵌入向量,解决了基于变压器的NLP模型中嵌入层参数过多的问题,显著减少了参数数量,并在自然语言推理任务中表现出竞争力的性能。
本研究探讨大型语言模型(LLMs)在重述和翻译任务中检测内在幻觉的能力。分析显示,不同模型在任务表现上存在差异,但在特定提示下表现一致,自然语言推理模型表现优异,表明LLM检测方法并非唯一选择。
本研究提出了一种新方法,利用大型视觉语言模型和自然语言推理来量化图像真实性,识别常识违反的图像,并在WHOOPS!数据集上实现了零-shot模式的新最优表现。
AIxiv专栏促进学术交流,研究团队提出CodePlan框架,通过代码规划提升大模型推理能力,解决自然语言推理中的结构性缺陷。实验表明,CodePlan在复杂任务中表现优异,并开源200万条数据,推动相关研究发展。
本研究提出了一种名为MorphNLI的模块化方法,针对自然语言推理中的分类问题。该方法通过逐步变化前提句生成假设句,利用现有NLI模型跟踪推理过程,从而提高准确率,尤其在跨领域设置中可提升12.6%。
本研究系统调查了大型语言模型(LLMs)在自然语言推理中的表现,强调逻辑形式的重要性,并比较了人类与LLMs在逻辑推理方面的异同。
本研究提出了一种神经符号对比学习方法,旨在解决预训练语言模型在自然语言推理任务中的文本扰动敏感性和对大数据集的依赖问题,从而显著提升推理能力和逻辑准确性。
本研究提出了一种新的上下文学习蒸馏方法,旨在解决自然语言推理任务中大模型训练资源消耗过大的问题。通过将OPT-1.3B模型的参数压缩至1.25亿,外域准确率显著提高。
本研究聚焦于自动任务指导中的程序性错误检测(PMD),通过问答自对话形式提升透明度,并利用自然语言推理模型生成一致性指标,从而显著提高模型性能和对话效率。
本研究探讨了预训练模型在自然语言推理中的表现,发现模型在矛盾类别上对抗攻击的韧性较强。通过对抗攻击实验,模型在推理和中性类别上的准确率显著下降,而矛盾类别的下降幅度较小,表明细调对抗示例能增强模型的鲁棒性。
本文探讨了自然语言推理(NLI)任务中的新方法,包括使用LSTM模型生成蕴含句子、数据增强和迁移学习。研究表明,生成多样化的合成数据和引入人工解释能显著提升模型性能,尤其在少样本和无监督学习中。强调了多样化语言表达对NLI模型发展的重要性。
该研究探讨了自然语言推理(NLI)在大型语言模型(LLM)评估中的应用。通过分析五个NLI基准在六种不同规模模型上的表现,发现NLI任务能够有效区分模型的大小和质量,且模型在训练过程中的准确性良好。尽管模型与人类标签的相似性随规模增加而提升,但仍有改进空间。
本研究提出了一种基于轻量化DeBERTa编码器的命名实体识别和自然语言推理系统,在法律违规检测中分别取得60.01%和84.73%的F1分数,显著优于大型语言模型。
本研究探讨了交叉熵损失在自然语言推理中的不足,通过替换近义词生成对比集,评估模型的理解能力。ELECTRA-small模型在常规数据集上的准确率为89.9%,但在对比集上降至72.5%。通过增强训练数据集,模型准确率提升至85.5%。研究强调多样化语言表达的重要性,以推动自然语言推理模型的发展。
本研究提出了一种推理调优方法,通过将检索数据与自然语言推理数据结合,解决稠密段落检索中的相关性评分问题,显著提升检索性能,并能与现有方法结合使用。
我们开发了一种多功能道德价值检测方法,使用GPT 3.5进行零样本无监督多标签分类,无需标记数据训练。结果表明,自然语言推理方法的性能与Davinci模型相当。我们还比较了监督模型与无监督方法在不同领域的效果,评估了各自优劣,推动了道德价值检测的发展。
本研究提出一种基于信念的欺骗框架,解决事实准确性与陈述真诚性混淆的问题。通过德语文本实验发现,传统和先进模型在识别欺骗性内容上效果不佳,自然语言推理在非事实及欺骗内容上的表现更差。这对事实核查过程有重要影响。
本文介绍了一个名为Knowref的新基准,用于共指消解和自然语言推理。研究发现,核心参考系统在代词指代任务上表现不如人类,可能是因为缺乏上下文信息。同时,提出了一种数据增强技巧antecedent switching,并在其他任务中取得了有希望的结果。
本研究提出了一种基于向量的多头自注意力池化方法,用于增强句子嵌入。实验证明该方法在自然语言推理、作者配置文件和情感分类等任务上表现出相对强的性能。
完成下面两步后,将自动完成登录并继续当前操作。