本文探讨了利用大型语言模型生成解释,以解决人类标注分歧的问题。研究表明,结合少量人类标签时,LLMs生成的解释能够有效接近人类判断分布,为缺乏人类解释的数据集提供新方法。
本文提出了一种新框架,用于评估语言模型(LLM)和人类评判者的偏见。结果显示人类和LLM评判者都容易受到扰动,并存在偏见。作者呼吁社区意识到评估系统的脆弱性,并开发健壮的评估系统。
本文研究了事实性与自然语言推理之间的关系,引入了FactRel注释方案模拟事实性推理。实验结果显示,事实性支持和削弱对自然语言推理的蕴含或矛盾关系影响较小,事实关系更适合分析媒体话语。使用GPT-4生成合成数据可提高性能,GPT-4进行少样本学习与DeBERTa相当强大。结果表明该任务依赖于世界知识和高级推理能力。
该研究论文描述了 FZI-WIM 在 SemEval-2024 任务 2:用于临床试验的安全生物医学自然语言推理中的推理系统。我们的系统利用思维链(CoT)范式来解决这一复杂的推理问题,并通过自洽性进一步提高了 CoT 的性能。与贪婪解码不同,我们对相同提示采样多个推理链,通过多数投票进行最终验证。这个自洽的 CoT 系统取得了 0.80(第 1 名)的基线 F1 分数,0.90(第 3...
基于字典的数据集在零样本分类任务中胜过基于自然语言推理数据集的模型,在多个语言中可迁移使用。
本文介绍了C2Gen NLI挑战,通过设计连续学习设置来探究持续学习对NLI组合推理的影响。实验证明模型在连续场景中无法进行组合推理的泛化。通过基准测试和分析C2Gen,发现连续学习子任务可以提高组合推理能力。
这篇论文提出了一个系统的方法和一个新的数据集VariErr,研究英语NLI任务中的错误与变异。通过评估自动错误检测方法和GPT模型的效果,发现GPT模型和人类在发现错误和人类标签变异方面表现更好。该方法适用于NLI,为将来研究错误与合理变异提供了基础。
该论文研究了自然语言推断数据的微调潜力,以提高信息检索和排名的效果,并通过使用来自波兰最大的电子商务网站和选定的开放领域数据,对英语和波兰语进行了验证。结果显示,使用对比损失和 NLI 数据进行微调可以提高模型在不同任务和语言方面的性能,并且有潜力改善单语和多语模型。最后,研究了嵌入向量的一致性和对齐性,以解释基于 NLI 的微调在域外应用中的效果。
该研究提出了一种自动提示优化方法,用于以情绪为条件的文本生成。通过迭代的优化过程,改变提示中的标记,以实现情感条件。与手动设计的提示相比,优化的提示在实现情感条件方面表现更好。
本研究提出了一种医学问题回答的对齐策略,通过调整指令和思考方法,提高了大型语言模型的性能。初步分析表明,该方法在问题子集上达到了70.63%的优异表现。
本文研究表明,使用 Big Bird 嵌入方法训练的分类器在 Reddit-L2 数据集上的表现优于语言特征工程模型,证明了输入大小是一个限制因素。该方法有效且计算效率高,是未来 NLI 研究的有希望的途径。
完成下面两步后,将自动完成登录并继续当前操作。