小红花·文摘

本研究提出了一种新方法SCOPE，通过压缩数学推理步骤，显著降低过程注释的计算成本。该方法将自然语言推理转化为代码并归一化，构建压缩前缀树，从而提升性能并节约资源。

SCOPE: Compressing Mathematical Reasoning Steps for Efficient Automated Process Annotation

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法，通过傅里叶展开生成令牌ID的嵌入向量，解决了基于变压器的NLP模型中嵌入层参数过多的问题，显著减少了参数数量，并在自然语言推理任务中表现出竞争力的性能。

Parameter-Efficient Transformer Embeddings

BriefGPT - AI 论文速递 ·

本研究探讨大型语言模型（LLMs）在重述和翻译任务中检测内在幻觉的能力。分析显示，不同模型在任务表现上存在差异，但在特定提示下表现一致，自然语言推理模型表现优异，表明LLM检测方法并非唯一选择。

Can Large Language Models Detect Intrinsic Hallucinations in Paraphrasing and Machine Translation?

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法，利用大型视觉语言模型和自然语言推理来量化图像真实性，识别常识违反的图像，并在WHOOPS!数据集上实现了零-shot模式的新最优表现。

Leveraging Illusions: Estimating Image Realism through Atomic Facts

BriefGPT - AI 论文速递 ·

大模型推理新范式！清华&蚂蚁：用编程思维来思考，用自然语言来表达

机器之心 ·

本研究提出了一种名为MorphNLI的模块化方法，针对自然语言推理中的分类问题。该方法通过逐步变化前提句生成假设句，利用现有NLI模型跟踪推理过程，从而提高准确率，尤其在跨领域设置中可提升12.6%。

MorphNLI: A Stepwise Approach to Natural Language Inference

BriefGPT - AI 论文速递 ·

本研究系统调查了大型语言模型（LLMs）在自然语言推理中的表现，强调逻辑形式的重要性，并比较了人类与LLMs在逻辑推理方面的异同。

The Role of Logical Form Supplementing Probability in Understanding the Performance of Language Models (and Humans)

BriefGPT - AI 论文速递 ·

本研究提出了一种神经符号对比学习方法，旨在解决预训练语言模型在自然语言推理任务中的文本扰动敏感性和对大数据集的依赖问题，从而显著提升推理能力和逻辑准确性。

Neural Symbolic Contrastive Learning for Cross-Domain Inference

BriefGPT - AI 论文速递 ·

本研究提出了一种新的上下文学习蒸馏方法，旨在解决自然语言推理任务中大模型训练资源消耗过大的问题。通过将OPT-1.3B模型的参数压缩至1.25亿，外域准确率显著提高。

用于高效少量样本微调的上下文学习蒸馏

BriefGPT - AI 论文速递 ·

本研究聚焦于自动任务指导中的程序性错误检测（PMD），通过问答自对话形式提升透明度，并利用自然语言推理模型生成一致性指标，从而显著提高模型性能和对话效率。

Explainable Procedural Mistake Detection

BriefGPT - AI 论文速递 ·

本研究探讨了预训练模型在自然语言推理中的表现，发现模型在矛盾类别上对抗攻击的韧性较强。通过对抗攻击实验，模型在推理和中性类别上的准确率显著下降，而矛盾类别的下降幅度较小，表明细调对抗示例能增强模型的鲁棒性。

Analyzing the Resilience of SNLI Contradiction Examples Against Attacks

BriefGPT - AI 论文速递 ·

本文探讨了自然语言推理（NLI）任务中的新方法，包括使用LSTM模型生成蕴含句子、数据增强和迁移学习。研究表明，生成多样化的合成数据和引入人工解释能显著提升模型性能，尤其在少样本和无监督学习中。强调了多样化语言表达对NLI模型发展的重要性。

先生成，再生成用于训练：UnitedSynT5在少量样本自然语言推理中的应用

BriefGPT - AI 论文速递 ·

该研究探讨了自然语言推理（NLI）在大型语言模型（LLM）评估中的应用。通过分析五个NLI基准在六种不同规模模型上的表现，发现NLI任务能够有效区分模型的大小和质量，且模型在训练过程中的准确性良好。尽管模型与人类标签的相似性随规模增加而提升，但仍有改进空间。

重新发现自然语言推理在大型语言模型中的角色

BriefGPT - AI 论文速递 ·

本研究提出了一种基于轻量化DeBERTa编码器的命名实体识别和自然语言推理系统，在法律违规检测中分别取得60.01%和84.73%的F1分数，显著优于大型语言模型。

Bonafide在LegalLens 2024共享任务中的应用：使用轻量化DeBERTa编码器进行法律违规检测与解决

BriefGPT - AI 论文速递 ·

本研究探讨了交叉熵损失在自然语言推理中的不足，通过替换近义词生成对比集，评估模型的理解能力。ELECTRA-small模型在常规数据集上的准确率为89.9%，但在对比集上降至72.5%。通过增强训练数据集，模型准确率提升至85.5%。研究强调多样化语言表达的重要性，以推动自然语言推理模型的发展。

基于关系的反事实数据增强与对比学习用于自然语言推理模型的鲁棒性提升

BriefGPT - AI 论文速递 ·

本研究提出了一种推理调优方法，通过将检索数据与自然语言推理数据结合，解决稠密段落检索中的相关性评分问题，显著提升检索性能，并能与现有方法结合使用。

通过推理调优改善稠密段落检索

BriefGPT - AI 论文速递 ·

我们开发了一种多功能道德价值检测方法，使用GPT 3.5进行零样本无监督多标签分类，无需标记数据训练。结果表明，自然语言推理方法的性能与Davinci模型相当。我们还比较了监督模型与无监督方法在不同领域的效果，评估了各自优劣，推动了道德价值检测的发展。

可解释的道德价值：一种神经符号方法用于价值分类

BriefGPT - AI 论文速递 ·

本研究提出一种基于信念的欺骗框架，解决事实准确性与陈述真诚性混淆的问题。通过德语文本实验发现，传统和先进模型在识别欺骗性内容上效果不佳，自然语言推理在非事实及欺骗内容上的表现更差。这对事实核查过程有重要影响。

德国的事实性与欺骗性有多纠缠？

BriefGPT - AI 论文速递 ·

本文介绍了一个名为Knowref的新基准，用于共指消解和自然语言推理。研究发现，核心参考系统在代词指代任务上表现不如人类，可能是因为缺乏上下文信息。同时，提出了一种数据增强技巧antecedent switching，并在其他任务中取得了有希望的结果。

重新审视英语Winogender范式的一致性、覆盖率和语法性

BriefGPT - AI 论文速递 ·

本研究提出了一种基于向量的多头自注意力池化方法，用于增强句子嵌入。实验证明该方法在自然语言推理、作者配置文件和情感分类等任务上表现出相对强的性能。

池化与注意力：基于LLM的嵌入模型的有效设计是什么？

BriefGPT - AI 论文速递 ·