小红花·文摘

本研究探讨了多模态数据在大型语言模型协作问题解决能力诊断中的应用，发现基于变换器的多模态模型能有效提升社交认知类指标的诊断能力，强调在教育中需细致考量多模态与建模技术的选择。

Rethinking the Potential of Multimodality in Collaborative Problem Solving Diagnosis with Large Language Models

BriefGPT - AI 论文速递 ·

该研究探讨了大型语言模型（LLMs）的推理能力，提出了一种基于“反事实”任务的评估框架。研究发现，LLMs在社交认知任务中的表现与儿童相似，但在物体行为认知和因果推理方面存在显著差异，表明需要更多现实世界的探索。此外，LLMs的能力可分为推理、理解和核心语言建模三部分，某些认知任务中的表现有限，强调了对语言理解的全面评估需求。

辅助任务需求掩盖了较小语言模型的能力

BriefGPT - AI 论文速递 ·