小红花·文摘

本研究探讨大型语言模型（LLMs）在物理教育中的应用，发现其在解决奥林匹克物理问题时优于人类，强调合理使用LLMs的重要性。

Evaluation of Large Language Models Based on GPT and Reasoning on Physics Olympiad Problems: Surpassing Human Performance and Its Impact on Educational Assessment

BriefGPT - AI 论文速递 ·

本研究提出了“多上下文视觉定位”任务，并构建了包含2000个高质量标注样本的MC-Bench数据集，以评估多模态大语言模型（MLLMs）的能力。研究表明，现有MLLMs在多图场景下的表现显著低于人类，推动了相关领域的进一步研究。

MC-Bench: A Benchmark for Multi-Context Visual Grounding

BriefGPT - AI 论文速递 ·

深度学习与人类在物体识别方面的差距正在缩小，但在识别不寻常姿势的物体时，人类表现更好。然而，限制图像暴露时间后，人类的表现下降到深度网络水平。人类和网络的错误模式也不相似，因此需要更多工作来提高计算机视觉系统的鲁棒性。

人类在给予足够时间的情况下，以不常见的姿势识别物体时胜过深度神经网络

BriefGPT - AI 论文速递 ·

本文评估了大型语言模型和人类在逻辑推理任务中的表现，发现两者在许多方面存在相似模式，且模型的准确性与任务的语义内容相关。人类和LM在推理任务上的表现有很大的重叠，内容对准确性和其他行为指标产生了类似的影响。

语言模型和人类的推理都依赖内容

极道 ·

研究比较了人类和ChatGPT（GPT-3.5和GPT-4）在不同词汇概念特征或维度上的表现，结果显示LLM在某些抽象维度上表现类似于人类，但在感官和运动领域，GPT-3.5表现较弱，而GPT-4在这方面有了显著进展。GPT-4的进步主要源于其在视觉领域的训练。某些概念表示的方面似乎与感官能力相互独立，但其他方面似乎需要它们。

大型语言模型在学习概念空间中的潜力分析

BriefGPT - AI 论文速递 ·

本文讨论了时间常识推理领域的研究，重点关注提高语言模型性能的多种增强和它们在数据集上的评估。然而，这些模型在处理时间常识属性的推理任务上仍然难以接近人类表现。需要谨慎解释研究结果，适当准备数据集和评估指标来实现。

TRAM：大型语言模型的时间推理基准评估

BriefGPT - AI 论文速递 ·