量子位 ·

Prompt自相矛盾，大模型能发现吗？上海交通大学最新研究解密

💡 原文中文，约2600字，阅读约需7分钟。

📝

内容提要

上海交通大学的研究团队提出了一个多模态基准测试，用于评估大模型检测冲突指令的能力。研究人员发现当前的大模型在处理自相矛盾的指令时存在不足，缺乏自我意识和认知能力。为了提高矛盾检测能力，研究人员提出了一种插入式提示方法，可以从外部世界注入认知能力。这项研究将在欧洲计算机视觉大会上发表。

🎯

关键要点

上海交通大学研究团队提出多模态基准测试，用于评估大模型检测冲突指令的能力。
研究发现当前大模型在处理自相矛盾指令时存在不足，缺乏自我意识和认知能力。
提出认知唤醒提示方法（CAP），通过外部注入认知能力提高矛盾检测能力。
研究将在第18届欧洲计算机视觉大会上发表。
多模态大模型在科研和应用领域取得进展，但在处理自相矛盾指令时表现欠佳。
自相矛盾指令集（SCI）包含2万个冲突指令和8个任务，评估多模态大模型的能力。
AutoCreate框架用于自动化数据集创建，提高SCI数据集构建速度和内容广度。
实验表明大模型缺乏对指令合理性的评估能力，需增强自我意识和认知能力。

❓

延伸问答

上海交通大学的研究主要关注什么问题？

研究主要关注大模型检测自相矛盾指令的能力。

研究团队提出了什么方法来提高矛盾检测能力？

研究团队提出了认知唤醒提示方法（CAP），通过外部注入认知能力来提高矛盾检测能力。

自相矛盾指令集（SCI）包含哪些内容？

SCI包含2万个冲突指令和8个任务，涵盖语言-语言和视觉-语言两种范式。

当前大模型在处理自相矛盾指令时存在哪些不足？

当前大模型缺乏自我意识和对指令合理性的评估能力，导致在处理自相矛盾指令时表现欠佳。

AutoCreate框架的作用是什么？

AutoCreate框架用于自动化数据集创建，提高自相矛盾指令集的构建速度和内容广度。

这项研究将在何时何地发表？

这项研究将在2023年10月的第18届欧洲计算机视觉大会上发表。

🏷️

标签

prompt 上海交通大学冲突指令多模态基准测试大模型自我意识认知能力

➡️

继续阅读

BaseRT：专为 Apple Silicon 优化，让 Mac 本地大模型快 6.4 倍
Apple Silicon 跑本地大模型，速度还能再提升多少？BaseRT 给出了一个答案：在 M5 Pro 上，它的提示词处理速度最高达到 llama....
基于SGLang的大模型推理实践——从benchmark方法论到部署方案选型与调优
随着大语言模型（LLM）的快速发展，模型规模不断增大，对推理部署的要求也越来越高。在实际项目中，如何高效地在GPU集群上部署和优化大模型推理，已经成为AI...
移远通信端侧AI大模型解决方案迎来全面升级
(全球TMT 2026年07月20日讯)在WAIC 2026（世界人工智能大会）期间，移远通信宣布其端侧AI大 […]
Fragments: July 21
With this post, I’ll wrap up my notes from the second Future of Software Dev...
四通集团STONETEK携G5208系列三款旗舰产品出征WAIC 2026
(全球TMT 2026年07月21日讯)2026年7月17日至20日，世界人工智能大会暨人工智能全球治理高级别 […]
In a world of AI agents, where do we fit in?
For more than a decade, leaders have used the phrase “Future of Work” to desc...