小红花·文摘

研究通过行为测试评估大语言模型的情境感知能力，创建了包含7个任务类别和超过13,000个问题的SAD基准测试集。评估了16个模型，发现聊天模型在SAD上表现更好，但在一般知识任务上没有优势。研究旨在量化情境感知能力，促进对模型的科学理解，并关注人工智能安全和控制的新风险。