小红花·文摘 - 小红花技术领袖俱乐部

本研究探讨了视觉语言模型在自动驾驶中对行人动态手势的理解能力，并创建了两个手势数据集。结果表明，现有模型在手势解读方面的准确性不足，强调了进一步研究的必要性。

Can Vision-Language Models Understand and Interpret Dynamic Gestures from Pedestrians? Preliminary Datasets and Exploration for Instructive Nonverbal Commands in Cooperative Autonomous Vehicles

BriefGPT - AI 论文速递 ·

本研究介绍了ChartReader和UniChart等多模态模型，旨在提升图表理解能力。通过强化学习和高质量数据集，这些模型在图表问答和总结任务中表现优异。研究还提出了ChartX评估集和CharXiv，揭示了现有模型在图表理解中的局限性，强调了未来研究的必要性。

ChartMoE：用于高级图表理解的专家混合连接器

BriefGPT - AI 论文速递 ·