小红花·文摘

本研究提出了一种基于文本中心的多模态评估方法，旨在解决课堂话语评估的不足。通过注意力机制和多任务学习，评估自然话语、提问和解释的质量。结果表明，文本模态主导，音频特征提升了模型与人类评分的一致性，为自动评估课堂话语质量奠定了基础。

Multimodal Assessment of Classroom Discourse Quality: A Text-Centered Attention-Based Multi-Task Learning Approach

BriefGPT - AI 论文速递 ·

本研究分析了临床疼痛评估的自动化方法，旨在开发高性能计算技术以实现自动评估。提出了单模态和多模态评估流程，并展示了其有效性，对人工智能领域具有重要影响。

A Pain Assessment Framework Based on Multimodal Data and Deep Machine Learning Methods

BriefGPT - AI 论文速递 ·

OmniEvalKit是一个新型评估工具箱，采用模块化架构，支持100多个大型语言模型和50个评估数据集，能够实现多语言、多领域及多模态的综合评估，提升了AI社区的应用便利性。

OmniEvalKit: A Modular and Lightweight Toolbox for Evaluating Large Language Models and Their Comprehensive Extensions

BriefGPT - AI 论文速递 ·

本文介绍了多模态评估集ChartX及其新模型ChartVLM，评估了多种图表类型和任务，显示ChartVLM在图表理解上优于其他模型。此外，研究提出了ChartMimic基准，评估大型多模态模型的视觉代码生成能力，强调了视觉理解和跨模态推理中的挑战。实验揭示了现有模型在图表理解中的局限性，并为未来研究提供了方向。

CharXiv：多模式 LLM 模型中现实图表理解的不足之处的概览

BriefGPT - AI 论文速递 ·

该研究介绍了多个多模态评估基准，如MMT-Bench和MLLM-Bench，旨在评估大规模视觉-语言模型（LVLM）在多模态任务中的能力。研究指出现有模型在视觉理解和内容偏见方面的不足，并提出了改进方案，强调了开发更强大模型的必要性。

INS-MMBench: 保险领域 LVLMs 性能综合评估的全面基准

BriefGPT - AI 论文速递 ·

本文介绍了多模态评估集ChartX及新方法ChartVLM，评估了多种视觉语言模型的推理能力。研究表明，ChartVLM在图表相关任务上表现优于其他模型，但在视觉推理方面仍有提升空间。通过创建合成几何问题数据集，评估了视觉语言模型的推理能力，结果显示其表现不如预期，为未来多模态模型的开发和评估提供了基础。

基于图表的推理：从 LLMs 向 VLMs 的能力转移

BriefGPT - AI 论文速递 ·

本研究探讨了图表到文本的自然语言总结方法及神经网络模型，提出了基于视觉的Transformer模型和UniChart强化学习模型，提升了图表分类和总结的表现。同时，构建了多模态评估集ChartX，并开发了ChartVLM模型，推动了图表理解和可视化领域的研究。

从像素到洞见：大型基础模型时代的自动图表理解综述

BriefGPT - AI 论文速递 ·

LlamaIndex 新闻通讯 2023年11月21日

Blog on LlamaIndex ·