小红花·文摘

提示工程？你做错了。

DEV Community ·

通过引入自相矛盾指令基准和认知唤醒提示，我们发现目前的大型多模型 (LMMs) 在识别多模指令不一致性方面存在困难，缺乏自我意识。

剖析失调：对大型多模型进行与自相矛盾指令的基准测试

BriefGPT - AI 论文速递 ·

本文介绍了SCORE框架，用于分析大型语言模型的推理能力。研究发现，大型语言模型在涉及上下文信息和常识的推理任务中存在自相矛盾的问题。SCORE结果凸显了推理的缺乏鲁棒性，强调了进一步研究推理最佳实践的紧迫性。

一个针对大型语言模型的 S.C.O.R.E. 评估框架：安全性，共识性，客观性，可重复性和可解释性

BriefGPT - AI 论文速递 ·

本文研究了自然语言理解模型在普遍会话中的一致性应用。作者提出了DialoguE COntradiction DEtection任务，并创建了新数据集。比较了结构化语言表述方法与非结构化方法，发现结构化方法在分析与分布式会话中更健壮且可转移。作者证明了最佳矛盾检测模型与人类判断一致，并可提高生成式聊天机器人的一致性。

ContraDoc：对大型语言模型中文档中的自相矛盾进行理解

BriefGPT - AI 论文速递 ·